Linux运维常见问题及解决的32个锦囊妙计
9月15日技术沙龙 | 与东华软件、AWS、京东金融、饿了么四位大咖探讨精准运维!
作为linux运维,多多少少会碰见这样那样的问题或故障,从中总结经验,查找问题,汇总并分析故障的原因,这是一个Linux运维工程师良好的习惯。每一次技术的突破,都经历着苦闷,伴随着快乐,可我们还是执着的继续努力,从中也积累了更多的经验,这就是实践给予我们的丰厚回报。 下面汇总了我做项目过程可能出现的故障及解决方法,看看是否与你有共鸣,并对你有帮助? 第一、常见问题解决集锦 1. shell脚本不执行 (1) 问题: 某天研发某同事找我说帮他看看他写的shell脚本,死活不执行,报错。我看了下,脚本很简单,也没有常规性的错误,报“:badinterpreter:Nosuchfileordirectory”错。 看这错,我就问他是不是在windows下编写的脚本,然后在上传到linux服务器的……果然。 (2) 原因: 在DOS/windows里,文本文件的换行符为rn,而在nix系统里则为n,所以DOS/Windows里编辑过的文本文件到了nix里,每一行都多了个^M。 (3) 解决:
附:sh-x脚本文件名,可以单步执行并回显结果,有助于排查复杂脚本问题。 2. crontab输出结果控制 (1) 问题: /var/spool/clientmqueue目录占用空间超过100G (2) 原因: cron中执行的程序有输出内容,输出内容会以邮件形式发给cron的用户,而sendmail没有启动所以就产生了/var/spool/clientmqueue目录下的那些文件,日积月累可能撑破磁盘。 (3) 解决:
3. telnet很慢/ssh很慢 (1) 问题: 某天研发某同事说10.50访问10.52memcached服务异常,让我们检查下看网络/服务/系统是否有异常。检查发现系统正常,服务正常,10.50ping10.52也正常,但10.50telnet10.52很慢。同时发现该机器的namesever是不起作用的。 (2) 原因:
(3) 解决:
4. Read-onlyfilesystem (1) 问题: 同事在mysql里建表建不成功,提示如下:
经检查mysql用户权限以及相关目录权限没问题;用perror30提示信息为:OSerrorcode30:Read-onlyfilesystem (2) 可能原因:
(3) 解决:
5. 文件删了磁盘空间没释放 (1) 问题: 某天发现某台机器df-h已用磁盘空间为90G,而du-sh/*显示所有使用空间加起来才30G,囧。 (2) 原因: 可能某人直接用rm删除某个正在写的文件,导致文件删了但磁盘空间没释放的问题 (3) 解决:
从lsof的输出中,我们可以发现pid为25575的进程持有着以文件描述号(fd)为33打开的文件/oradata/DATAPRE/UNDOTBS009.dbf。 在我们找到了这个文件之后可以通过结束进程的方式来释放被占用的空间:
6. find文件提升性能 (1) 问题: 在tmp目录下有大量包含picture_*的临时文件,每天晚上2:30对一天前的文件进行清理。之前在crontab下跑如下脚本,但是发现脚本效率很低,每次执行时负载猛涨,影响到其他服务。
(2) 原因: 目录下有大量文件,用find很耗资源。 (3) 解决:
7. 获取不了网关mac地址 (1) 问题: 从2.14到3.65(映射地址2.141)网络不通,但是从3端的其他机器到3.65网络OK。 (2) 原因:
表面现象是机器自动获取不了网关MAC地址,网络工程师说是网络设备的问题,具体不清。 (3) 解决: arp绑定,arp-ibond0-s192.168.3.25400:00:5e:00:01:64 8. http服务无法启动一例 (1) 问题: 某天研发某同事说网站前端环境http无法启动,我上去看了下。报如下错:
(编辑:ASP站长网) |