BPF 编译器集合 (BCC)
BCC 是一个用于创建高效内核跟踪和操作程序的工具包,包含多个有用的工具和示例。它利用了扩展的 BPF(Berkeley Packet Filters),正式名称为 eBPF,这是一个首次添加到 Linux 3.15 的新特性。BCC 使用的大部分功能需要 Linux 4.1 及以上版本。
Ingo Molnár 对 eBPF 的描述如下:
这个周期中一个更有趣的特性是能够将 eBPF 程序(用户定义的、沙盒化的字节码由内核执行)附加到 kprobes。这允许用户对活动内核映像进行自定义检测,永远不会崩溃、挂起或对内核产生负面影响。
BCC 使 BPF 程序更易于编写,可以用 C 语言进行内核检测(并包含 LLVM 的 C 语言封装),以及 Python 和 Lua 前端。它适用于许多任务,包括性能分析和网络流量控制。
截图
这个例子跟踪了一个磁盘 I/O 内核函数,并在内核中填充了一个 I/O 大小的 2 次方直方图。为了效率,只有直方图摘要会返回到用户级。
# ./bitehist.py
正在跟踪...按 Ctrl-C 结束。
^C
kbytes : count distribution
0 -> 1 : 3 | |
2 -> 3 : 0 | |
4 -> 7 : 211 |********** |
8 -> 15 : 0 | |
16 -> 31 : 0 | |
32 -> 63 : 0 | |
64 -> 127 : 1 | |
128 -> 255 : 800 |**************************************|
上面的输出显示了一个双峰分布,其中最大的模式是 800 次 I/O,大小在 128 到 255 KB 之间。
查看源代码:bitehist.py。跟踪的内容、存储的内容以及数据的呈现方式都可以完全自定义。这只展示了众多可能功能中的一部分。
安装
请参阅 INSTALL.md 了解您平台上的安装步骤。
常见问题
请参阅 FAQ.txt 了解最常见的故障排除问题。
参考指南
请参阅 docs/reference_guide.md 获取 bcc 和 bcc/BPF API 的参考指南。
内容
其中一些是包含 C 和 Python 的单个文件,其他一些有一对 .c 和 .py 文件,还有一些是文件目录。
跟踪
示例
- examples/tracing/bitehist.py: 块 I/O 大小直方图。示例。
- examples/tracing/disksnoop.py: 跟踪块设备 I/O 延迟。示例。
- examples/hello_world.py: 为新进程打印"Hello, World!"。
- examples/tracing/mysqld_query.py: 使用 USDT 探针跟踪 MySQL 服务器查询。示例。
- examples/tracing/nodejs_http_server.py: 使用 USDT 探针跟踪 Node.js HTTP 服务器请求。示例。
- examples/tracing/stacksnoop: 跟踪内核函数并打印所有内核堆栈跟踪。示例。
- tools/statsnoop: 跟踪 stat() 系统调用。示例。
- examples/tracing/task_switch.py: 计算带有源和目标 PID 的任务切换。
- examples/tracing/tcpv4connect.py: 跟踪 TCP IPv4 主动连接。示例。
- examples/tracing/trace_fields.py: 打印跟踪事件字段的简单示例。
- examples/tracing/undump.py: 转储 UNIX 套接字数据包。示例
- examples/tracing/urandomread.py: 内核跟踪点示例,跟踪 random:urandom_read。示例。
- examples/tracing/vfsreadlat.py examples/tracing/vfsreadlat.c: VFS 读取延迟分布。示例。
- examples/tracing/kvm_hypercall.py: KVM 入口、出口和超级调用的条件静态内核跟踪点。示例。
工具
- tools/argdist: 以直方图或频率计数的形式显示函数参数值。示例。
- tools/bashreadline: 打印系统范围内输入的 bash 命令。示例。
- tools/bpflist: 显示具有活动 BPF 程序和映射的进程。示例。
- tools/capable: 跟踪安全能力检查。示例。
- tools/compactsnoop: 跟踪压缩区域事件及其 PID 和延迟。示例。
- tools/criticalstat: 跟踪并报告内核中的长原子临界区。示例
- tools/deadlock: 检测运行进程中的潜在死锁。示例。
- tools/drsnoop: 跟踪直接回收事件及其 PID 和延迟。示例。
- tools/funccount: 计算内核函数调用次数。示例。
- tools/inject: 带有调用链和谓词的目标错误注入。示例。
- tools/klockstat: 跟踪内核互斥锁事件并显示锁统计信息。示例。
- tools/opensnoop: 跟踪 open() 系统调用。示例。
- tools/readahead: 显示预读缓存的性能。示例。
- tools/reset-trace: 重置跟踪状态。仅用于维护。示例。
- tools/stackcount: 计算内核函数调用及其堆栈跟踪。示例。
- tools/syncsnoop: 跟踪 sync() 系统调用。示例。
- tools/threadsnoop: 列出新线程创建。示例。
- tools/tplist: 显示内核跟踪点或 USDT 探针及其格式。示例。
- tools/trace: 跟踪任意函数,可带过滤器。示例。
- tools/ttysnoop: 观看 tty 或 pts 设备的实时输出。示例。
- tools/ucalls: 汇总高级语言中的方法调用或 Linux 系统调用。示例。
- tools/uflow: 打印高级语言中的方法流程图。示例。
- tools/ugc: 跟踪高级语言中的垃圾回收事件。示例。
- tools/uobjnew: 按对象类型和分配的字节数汇总对象分配事件。示例。
- tools/ustat: 收集高级语言中的事件,如垃圾回收、线程创建、对象分配、异常等。示例。
- tools/uthreads: 跟踪 Java 和原始 pthreads 中的线程创建事件。示例。
内存和进程工具
- tools/execsnoop: 通过 exec() 系统调用跟踪新进程。示例。
- tools/exitsnoop: 跟踪进程终止(退出和致命信号)。示例。
- tools/killsnoop: 跟踪由 kill() 系统调用发出的信号。示例。
- tools/kvmexit: 显示每个虚拟机退出的退出原因及其统计信息。示例。
- tools/memleak: 显示未释放的内存分配以查找内存泄漏。示例。
- tools/oomkill: 跟踪内存不足(OOM)杀手。示例。
- tools/pidpersec: 计算新进程(通过 fork)。示例。
- tools/rdmaucma: 跟踪 RDMA 用户空间连接管理器访问事件。示例。
- tools/shmsnoop: 跟踪 System V 共享内存系统调用。示例。
- tools/slabratetop: 内核 SLAB/SLUB 内存缓存分配率排行。示例。
性能和时间工具
- tools/dbslower: 跟踪比阈值慢的 MySQL/PostgreSQL 查询。示例。
- tools/dbstat: 将 MySQL/PostgreSQL 查询延迟汇总为直方图。示例。
- tools/funcinterval: 同一函数之间的时间间隔直方图。示例。
- tools/funclatency: 计时函数并显示其延迟分布。示例。
- tools/funcslower: 跟踪缓慢的内核或用户函数调用。示例。
- tools/hardirqs: 测量硬 IRQ(硬中断)事件时间。[示例](tools/
- tools/bitesize:显示每个进程的I/O大小直方图。示例。
- tools/cachestat:跟踪页面缓存命中/未命中比率。示例。
- tools/cachetop:按进程跟踪页面缓存命中/未命中比率。示例。
- tools/dcsnoop:跟踪目录项缓存(dcache)查找。示例。
- tools/dcstat:目录项缓存(dcache)统计。示例。
- tools/biolatency:以直方图形式总结块设备I/O延迟。示例。
- tools/biotop:磁盘的top命令:按进程总结块设备I/O。示例。
- tools/biopattern:识别随机/顺序磁盘访问模式。示例。
- tools/biosnoop:跟踪块设备I/O,包括PID和延迟。示例。
- tools/dirtop:按目录显示文件读写。目录的top命令。示例。
- tools/filelife:跟踪短暂文件的生命周期。示例。
- tools/filegone:跟踪文件消失的原因(删除或重命名)。示例。
- tools/fileslower:跟踪缓慢的同步文件读写。示例。
- tools/filetop:按文件名和进程显示文件读写。文件的top命令。示例。
- tools/mdflush:跟踪md刷新事件。示例。
- tools/mountsnoop:系统范围内跟踪mount和umount系统调用。示例。
- tools/virtiostat:显示VIRTIO设备IO统计。示例。
文件系统工具
- tools/btrfsdist:以直方图形式总结btrfs操作延迟分布。示例。
- tools/btrfsslower:跟踪缓慢的btrfs操作。示例。
- tools/ext4dist:以直方图形式总结ext4操作延迟分布。示例。
- tools/ext4slower:跟踪缓慢的ext4操作。示例。
- tools/nfsslower:跟踪缓慢的NFS操作。示例。
- tools/nfsdist:以直方图形式总结NFS操作延迟分布。示例。
- tools/vfscount:统计VFS调用。示例。
- tools/vfsstat:统计一些VFS调用,以列形式输出。示例。
- tools/xfsdist:以直方图形式总结XFS操作延迟分布。示例。
- tools/xfsslower:跟踪缓慢的XFS操作。示例。
- tools/zfsdist:以直方图形式总结ZFS操作延迟分布。示例。
- tools/zfsslower:跟踪缓慢的ZFS操作。示例。
网络
示例:
- examples/networking/distributed_bridge/:分布式网桥示例。
- examples/networking/http_filter/:简单的HTTP过滤器示例。
- examples/networking/simple_tc.py:简单的流量控制示例。
- examples/networking/simulation.py:模拟辅助工具。
- examples/networking/neighbor_sharing/tc_neighbor_sharing.py examples/networking/neighbor_sharing/tc_neighbor_sharing.c:按IP进行分类和速率限制。
- examples/networking/tunnel_monitor/:高效监控流量流。
- examples/networking/vlan_learning/vlan_learning.py examples/vlan_learning.c:将以太网流量分流到工作veth+命名空间。
BPF自省
帮助自省BPF程序的工具。
动机
BPF保证加载到内核中的程序不会崩溃,也不会永远运行,但BPF又足够通用,可以执行多种任意类型的计算。目前,可以用C语言编写一个程序,编译成有效的BPF程序,但编写一个编译成无效BPF的C程序要容易得多(C语言就是这样)。用户在尝试运行程序之前不会知道它是否有效。
有了专门的BPF前端,人们应该能够用一种语言编写程序,并从编译器那里得到关于其在BPF后端的有效性的反馈。这个工具包旨在提供一个只能创建有效BPF程序的前端,同时仍然充分利用其灵活性。
此外,当前与BPF的集成工作流程有些笨拙,有时涉及直接在Linux内核源代码树中编译。这个工具链旨在最大限度地减少开发人员编译BPF所花费的时间,而将重点放在可以用BPF编写的应用程序和可以用BPF解决的问题上。
这个工具包的特点包括:
- 共享库中的端到端BPF工作流程
- 为BPF后端修改的C语言
- 与llvm-bpf后端集成以进行JIT编译
- 动态加载/卸载JIT编译的程序
- 支持BPF内核钩子:套接字过滤器、tc分类器、tc操作和kprobes
- Python绑定
- 套接字过滤器、tc分类器和kprobes的示例
- 用于跟踪运行系统的独立工具
未来,很可能会支持更多的绑定,而不仅仅是Python。随时添加对你选择的语言的支持并发送拉取请求!
教程
- docs/tutorial.md:使用bcc工具解决性能、故障排除和网络问题。
- docs/tutorial_bcc_python_developer.md:使用Python接口开发新的bcc程序。
网络
在2015年Red Hat峰会上,BCC作为BPF会话的一部分进行了展示。 模拟了一个多主机vxlan环境,并使用BPF程序监控其中一个物理接口。BPF程序保存了通过接口的内部和外部IP地址的统计信息,用户空间组件将这些统计信息转化为一个图表,显示多个粒度级别的流量分布。查看代码这里。
贡献
已经迫不及待要提交一些代码了吗?这里有一些资源可以加入IOVisor社区的讨论,看看你想做什么工作。
- 邮件列表: https://lists.iovisor.org/mailman/listinfo/iovisor-dev
- IRC: irc.oftc.net上的#iovisor频道
- BCC问题跟踪器: Github Issues
- 贡献脚本的指南: CONTRIBUTING-SCRIPTS.md
外部链接
想了解更多关于BCC及其使用方式的信息吗?你可以在LINKS.md中找到网上其他BCC相关内容的链接。