腾讯云服务器故障排查:遇到问题怎么查
服务器突然连不上了,网站打不开了,CPU突然飙到100%……遇到这些问题,很多人第一反应是“找客服”。其实很多问题自己就能排查,这篇文章把常见故障场景拆开,告诉你从哪入手。
场景一:SSH连不上
现象
用SSH连接服务器,一直转圈,或者报错“Connection timed out”、“Connection refused”。
排查步骤
检查实例状态:控制台看实例是不是“运行中”
检查安全组:是否允许SSH(22端口)入站,来源IP是否包含你的IP
检查网络:实例有没有公网IP,子网路由表是否有Internet网关
尝试控制台登录:在控制台点击“登录”,如果能进去,说明是网络问题;如果进不去,可能是系统问题
检查密钥:密钥文件权限是否正确(Linux/Mac需400),用户名是否正确(root或ubuntu)
解决方案
安全组没开:添加入站规则
IP变了:用新IP连接
密钥丢了:用云硬盘挂载方式找回
场景二:网站打不开
现象
浏览器访问IP或域名,转圈、超时、报错。
排查步骤
检查Web服务:systemctl status nginx(或httpd),看是否运行
检查安全组:是否开放80(HTTP)和443(HTTPS)端口
本地测试:在服务器上执行 curl http://localhost,如果能返回内容,说明Web服务正常,问题在网络层
检查域名解析:ping 你的域名,看IP是不是你的服务器
检查备案:如果是国内站域名,备案了吗?
解决方案
Web服务没启动:systemctl start nginx
安全组没开:添加入站规则
域名没解析:去域名管理添加A记录
没备案:提交备案申请,或换香港节点
场景三:服务器卡、CPU高
现象
网站响应慢,SSH输入命令半天才回,CPU持续100%。
排查步骤
看CPU:top,看哪个进程占用高
看内存:free -h,内存满了会导致卡顿
看磁盘IO:iostat -x 1,看%util,接近100%说明磁盘忙
看监控:在腾讯云控制台看监控图表,了解趋势
检查可疑进程:ps aux | sort -rk 3 | head -10,看有没有不认识的可疑进程(可能是挖矿)
解决方案
正常业务进程高:考虑升级配置,或加负载均衡
可疑进程:可能是被入侵,立即隔离,查日志,改密码
磁盘忙:考虑升级磁盘类型,或优化程序
场景四:磁盘满了
现象
写文件报错“No space left on device”,网站不能上传文件。
排查步骤
看磁盘使用率:df -h
找大文件:du -sh /* | sort -rh | head -10,一层层找
检查常见大目录:/var/log(日志)、/tmp(临时文件)、/home(用户文件)
解决方案
清理日志:truncate -s 0 /var/log/syslog
清理临时文件:rm -rf /tmp/*
扩容磁盘:在控制台修改卷大小,然后 xfs_growfs / 或 resize2fs /dev/xvda1
场景五:数据库连不上
现象
网站提示“数据库连接错误”,或 mysql -h xxx 连不上。
排查步骤
检查数据库服务:systemctl status mariadb(或mysql)
检查端口:netstat -tlnp | grep 3306
检查安全组:是否开放3306端口
检查用户名密码:是否正确
检查数据库是否存在:mysql -u root -p 进去后 show databases;
解决方案
数据库没启动:systemctl start mariadb
端口没开:在安全组添加入站规则
密码错误:重置密码
数据库不存在:创建数据库
场景六:IP被封
现象
网站突然访问不了,但服务器上curl localhost能通,ping不通。
排查步骤
检查控制台:有没有收到安全告警
检查防火墙:iptables -L,看有没有IP被ban
检查云安全中心:有没有攻击告警
解决方案
如果是腾讯云封禁,提交工单申诉
如果是服务器防火墙封禁,清空iptables规则
结语
遇到问题不要慌,按步骤排查。把常见问题的排查方法记下来,下次遇到就能快速定位。如果实在解决不了,记得提交工单,或者找代理商技术支持。
如果需要更深入咨询了解可以联系全球代理上TG:@jinniuge 他们在云平台领域有更专业的知识和建议,他们有国际阿里云,国际腾讯云,国际华为云,aws亚马逊,谷歌云一级代理的渠道,客服1V1服务,支持免实名、免备案、免绑卡。开通即享专属VIP优惠、充值秒到账、官网下单享双重售后支持。不懂找他们就对了。
3 .0
