Linux句柄数过多问题排查
以下是Linux句柄数过多问题的排查与解决方法整理:
一、检测句柄使用情况
1.查看系统限制
单个进程限制:ulimit -n
系统级总限制:cat /proc/sys/fs/file-max
2.统计进程占用量
查看指定进程:lsof -p <PID> | wc -l
全局Top占用进程:
lsof -n | awk '{print $2}' | sort | uniq -c | sort -nr | head -n 10
通过输出可快速定位句柄泄漏的进程。
二、常见问题原因
1.资源未释放
程序未正确关闭文件、Socket连接或数据库连接(如MySQL报错Too many open files)
网络接口调用量剧增导致句柄累积(尤其是HTTP长连接场景)
2.配置限制过低
ulimit -n设置的进程最大句柄数低于实际需求
三、解决方案
临时调整
提升进程限制
ulimit -n 65535 # 仅对当前会话有效
需注意普通用户可能无法突破系统级硬限制
永久调整
-
修改用户级限制
编辑/etc/security/limits.conf
,添加:
* soft nofile 65535
* hard nofile 65535
重启后生效
调整系统级总限制
修改/etc/sysctl.conf
,设置:
fs.file-max = 2097152
fs.nr_open = 2097152
程序优化
-
排查资源泄漏
结合lsof
输出分析句柄类型(如频繁出现CLOSE_WAIT
状态的TCP连接)使用jstack
等工具检查Java线程堆栈(若为Java程序) -
监控工具 定时统计句柄数变化:
watch -n 60 "lsof -p <PID> | wc -l"
绘制折线图观察增长趋势,关联接口调用量