devops故障排除 | 7.0
dev 故障排除
- 第一章 故障排除的最佳实践
- 1.划分问题空间(网站请求超时,可以先访问其他的网站确认网络是否正常,而不是直接去机房查看网线是否插好),团队配合也是如此,要保证某个人排除了一个原因并及时传达给其他人
- 2.协同工作良好沟通(电话会议,直接对话,电子邮件,实时聊天室,备用沟通方法)
- 3.快速简单测试
- 4.多尝试过去的解决方案
- 5.记录问题和解决方案
- 6.了解改动
- 7.了解系统如何工作
- 8.谨慎使用Internet
9抵制重启
第二章服务器为什么这么慢?
- 1.系统负载 uptime (后三个数字分别代表1分钟,5分钟,15分钟负载)
- 2.什么是高负载(cpu密集型,ram密集型,io密集型)
- 3.使用top命令解决负载内存,使用iostat查看磁盘分区的读写情况 iotop 进程排序
4.问题发生后的高负载处理(sysstat 记录系统的统计信息)
第三章解决启动问题
- 1.启动流程:bios-grub-启动内核-init
- 2.bios启动顺序
- 3.grub故障 MBR损坏 阶段1.5grub提示grub> (grub命令尝试读取分区)配置错误的grub提示,可能是是配置文件出错,比如uuid发生更改(换老内核)进入系统之后修复grub(grub1 /boot/grub/menu.lst grub2 /etc/default/grub 运行/usr/sbin/update-grub 重新生成grub.cfg)不能进入系统通过磁盘修复grub
4.无法挂载根文件系统 进入grub里面修改磁盘参数(blkid 查看uuid,修改 /etc/fstab)
第四章磁盘无法写入
- 磁盘满 提示 no space left on device 用df命令查看 tune2fs -m 调整保留区块大小 du 命令查询目录占用空间 解决:日志切割,crontab 或者 logrotate
- 节点不足 df -i
- 系统只读 mount -o remount,rw /home
- 文件系统损坏 fsck修复系统
- 修复软raid /proc/mdstat 里面信息查看磁盘状态,mdadm /dev/md0 –fail /dev/sdd1 –remove /dev/sdd1 mdadm /dev/md0 –add /dev/sdd1
- 第五章追踪网络问题的根源
- 1.服务器A不能和服务器B通信 排查步骤:另外一台测试,缩小排查步骤 ethtool查看网口是否正常,ifconfig 查看网络是否正确配置,route -n 查看网关 或者ping 用nslookup 和dig 检查dns 用ping该网络另外一台主机的方式检测是否web服务器阻止访问。traceroute 检测路由问题的工具,检查端口用telnet 查看端口是否开启 ,用nmap能检查出来防火墙存在,测试端口监听 netstat -lnp ,查看防火墙规则,
2.通过traceroute看下网络缓慢原因 iftop 查看带宽使用情况 抓包 tcpdump wireshark
第六章 dns服务器故障排除
- 1.dns客户端故障排除 nslookup 和dig
- 2.ping不通且不能解析,可能是dns服务器宕机了
- 3.server can‘t find web1 可能是不在dns搜索路径中,使用完整域名试下
4.dns 服务器故障排除 dig 命令详细信息讲解 ,跟踪dns解析,dig www.baidu.com +trace 提示 refuse 可能配置文件把递归查询禁用了,域名生效时间问题,可能得清理下缓存,区域语义错误,区域传输问题(序列号没更新,修改区域文件,确保序列号增长)
第七章 追踪邮件问题
- 第八章 追踪web服务器问题
- 第九章 追踪数据库问题
- 第十章 硬件问题