当前位置: 首页 > ds >正文

linux crash工具详解

crash 是 Linux 系统中用于分析内核转储文件(如 vmcore 或 kdump 生成的 dump 文件)的核心工具。它结合了调试符号和内核数据结构,能够直观地查看崩溃时的系统状态。以下是其详细使用方法及核心功能解析:

一、安装与准备

1. 安装 crash
  • Debian/Ubuntu:

    sudo apt install crash
  • CentOS/RHEL/OpenEuler:

    sudo yum install crash
2. 安装调试符号

必须安装与内核版本完全匹配的调试符号包,否则无法解析内核数据结构:

  • Debian/Ubuntu:

    sudo apt install linux-image-$(uname -r)-dbg
  • CentOS/RHEL:

    sudo yum install kernel-debuginfo-$(uname -r)
3. 验证文件

确保以下文件存在:

  • vmlinux:内核的未压缩符号文件(通常位于 /usr/lib/debug/lib/modules/$(uname -r)/vmlinux)。

  • vmcore:内核转储文件(默认在 /var/crash 目录下)。

二、启动 crash

基本语法
crash [vmlinux] [vmcore] [options]

示例:

crash /usr/lib/debug/lib/modules/5.4.0-80-generic/vmlinux /var/crash/20231010/vmcore
常用选项
选项说明
-s启动后直接进入交互式命令行(默认行为)
-d显示调试信息(用于排查工具自身问题)
-i [script]启动时自动执行预定义的脚本文件

三、核心功能与命令

1. 基本状态查看
命令说明
help查看所有支持的命令及简要说明
sys显示系统基本信息(内存、CPU、内核版本等)
kmem -i查看内存使用统计(类似 free 命令的输出)
mod列出已加载的内核模块

示例:

crash> sysKERNEL: /usr/lib/debug/lib/modules/5.4.0-80-generic/vmlinuxDUMPFILE: /var/crash/20231010/vmcoreCPUS: 4DATE: Thu Oct 10 15:30:00 2023UPTIME: 02:15:00
LOAD AVERAGE: 0.12, 0.08, 0.06TASKS: 512NODENAME: server01RELEASE: 5.4.0-80-genericVERSION: #91-Ubuntu SMP Thu Jul 15 19:09:17 UTC 2021MACHINE: x86_64  (2194 Mhz)MEMORY: 8 GB
2. 崩溃上下文分析
命令说明
bt显示崩溃时的调用栈(Backtrace)
bt -a显示所有 CPU 的调用栈
ps列出崩溃时的所有进程状态
log查看内核日志(dmesg 的崩溃前内容)
irq查看中断状态

示例:

crash> bt
PID: 0      TASK: ffff88807c0a0000  CPU: 0   COMMAND: "swapper/0"#0 [ffff88807e4c3e10] crash_nmi_callback at ffffffff810e3d20#1 [ffff88807e4c3e60] nmi_handle at ffffffff810e3a80#2 [ffff88807e4c3eb0] default_do_nmi at ffffffff810e3c10#3 [ffff88807e4c3ed0] do_nmi at ffffffff810e3d40#4 [ffff88807e4c3ef0] end_repeat_nmi at ffffffff82000b50[exception RIP: native_safe_halt+18]RIP: ffffffff810c1b32  RSP: ffff88807e4c3fa0  RFLAGS: 00000246RAX: 0000000000000000  RBX: 0000000000000000  RCX: 0000000000000000RDX: 0000000000000000  RSI: 0000000000000000  RDI: 0000000000000000RBP: ffff88807e4c3fa0   R8: 0000000000000000   R9: 0000000000000000R10: 0000000000000000  R11: 0000000000000000  R12: ffffffff8223d200R13: 0000000000000000  R14: 0000000000000000  R15: 0000000000000000CS: 0010  SS: 0018
--- <NMI exception stack> ---
3. 内存与数据结构分析
命令说明
struct [name] [addr]查看指定地址的内核结构体内容(如 struct task_struct
rd [addr] [length]以十六进制格式读取内存数据
search [-u] [value]在内存中搜索特定值(-u 表示按无符号整数搜索)
vm -p [PID]查看指定进程的虚拟内存布局(类似 /proc/[PID]/maps

示例:

crash> struct task_struct ffff88807c0a0000
struct task_struct {state = 0,stack = 0xffffc900001bc000,usage = {counter = 2},flags = 69238894,ptrace = 0,...
}
4. 进程与线程分析
命令说明
ps -a列出所有进程(包括内核线程)
task [addr]查看指定任务的详细信息
set [PID]切换到指定进程的上下文
files [PID]查看进程打开的文件描述符

示例:

crash> ps -aPID    PPID  CPU       TASK        ST  %MEM     VSZ    RSS  COMM0      0   0  ffff88807c0a0000  RU   0.0       0      0  [swapper/0]1      0   1  ffff88807c0a0140  IN   0.0   19356   3208  systemd2      0   2  ffff88807c0a0280  IN   0.0       0      0  [kthreadd]...
5. 硬件相关分析
命令说明
bt -f显示调用栈及函数参数
dis [addr]反汇编指定地址的代码
regs查看寄存器状态
kmem -s检查内存泄漏或损坏

四、实战案例:分析内核 panic

步骤 1:定位崩溃点
crash> log | grep "Kernel panic"
[ 1234.567890] Kernel panic - not syncing: Fatal exception
步骤 2:查看调用栈
crash> bt
#5 [ffff88807e4c3e10] panic at ffffffff810e3d20
#6 [ffff88807e4c3e60] oops_end at ffffffff810e3a80
...
步骤 3:检查相关进程
crash> ps | grep -E "PID|1234"PID    PPID  CPU  COMMAND1234    567   2   faulty_driver
步骤 4:分析驱动代码
crash> dis ffffffffc0123456  # 反汇编崩溃地址的代码
0xffffffffc0123456 <faulty_func+22>: mov    0x0(%rbp),%rax
0xffffffffc012345a <faulty_func+26>: test   %rax,%rax
0xffffffffc012345d <faulty_func+29>: je     0xffffffffc0123470

五、注意事项

  1. 符号一致性
    必须保证 vmlinux 和 vmcore 的内核版本完全一致,否则 crash 会报错 "cannot determine file type"

  2. 权限问题
    分析 vmcore 需要 root 权限,或用户属于 crash 组。

  3. 调试符号路径
    如果 vmlinux 不在默认路径,需通过 -S 选项指定搜索路径:

    crash -S /path/to/debuginfo ...
  4. 自动化分析
    可通过编写脚本批量执行命令:

    crash -i analyze.crashscript vmlinux vmcore

六、扩展工具

  • GDB:适合用户态程序分析,但对内核支持有限。

  • makedumpfile:压缩转储文件,减少存储占用。

  • drgn:新一代内核调试工具,支持 Python 脚本化分析。

通过 crash 工具,开发者可以深入分析内核崩溃的根本原因(如空指针解引用、内存越界等),快速定位问题代码。熟练掌握其命令和调试技巧,是 Linux 系统故障排查的核心能力之一。

http://www.xdnf.cn/news/4220.html

相关文章:

  • android-ndk开发(1): 搭建环境
  • 星途-(4)
  • 关于Python:9. 深入理解Python运行机制
  • DeepSeek技术发展详细时间轴与技术核心解析
  • ARM子程序调用与返回
  • vscode运行python的快捷键
  • VirtualBox调整虚拟机内存和CPU
  • 信息系统项目管理师-软考高级(软考高项)​​​​​​​​​​​2025最新(八)
  • 智能体四项关键技术:MCP、A2A、ANP与函数调用的深度解析
  • 判断字符是否唯一 --- 位运算
  • 《冰雪三职业》:战士玩法攻略!
  • 精益数据分析(39/126):SaaS与移动应用商业模式的关键要点剖析
  • P6822 [PA 2012 Finals] Tax 题解
  • 【项目】基于ArkTS的网吧会员应用开发(2)
  • Qt天气预报系统更新UI界面
  • ansible基础-优化
  • 代码随想录算法训练营day9:字符串part02
  • 英伟达开源英语自动语音识别模型:nvidia/parakeet-tdt-0.6b-v2
  • android zxing QrCode 库集成转竖屏适配问题
  • 餐具瓷器品牌十大排名
  • Linux安装RTL8215网卡驱动
  • FreeRTOS系统CPU使用率统计
  • AutoGPT
  • GESP2024年3月认证C++八级( 第二部分判断题(6-10))
  • 柯西乘积定理(Cauchy Product Theorem)
  • C# 反射
  • [特殊字符] 大模型(LLMs)RAG 版面分析——文本分块面
  • 农经权二轮延包软件—摸底申请表生成
  • 数据库的并发控制
  • nats v2.11.3全新上线!MQTT支持增强、JetStream性能优化、关键BUG修复,构建高效可信消息中间件新时代