当前位置: 首页 > news >正文

【中间件】bthread效率为什么高?

bthread效率为什么更高?

1 基本概念

bthread是brpc中的用户态线程,也是协程的一种实现。其采用M:N模型,即多个用户线程映射到少量的系统线程上。

2 高效做法

  1. 用户态调度:避免内核态和用户态之间的切换开销,上下文切换更快。系统线程的切换需要内核接入,而用户态线程的切换完全在用户空间完成,减少了系统调用和上下文切换的开销。
  2. 更轻量级的上下文切换:用户态线程的上下文数据量风小,只需要保存必要的寄存器状态,而内核线程需要保存更多的状态信息,比如浮点寄存器、信号处理器等。
  3. M:N模型:多个用户线程由较少的系统线程调度,减少了系统线程的创建和销毁开销,同时也减少了上下文切换的次数。系统线程的数量通常与cpu核心数相当,避免了过多的线程竞争。
  4. 无锁或细粒度锁的数据结构:任务队列使用无锁队列或细粒度锁,减少了线程间的竞争和等待时间,提高了并发性能。
  5. 工作窃取(work stealing):当某个工作线程的任务队列为空时,可以从其他线程的队列中窃取任务,实现负载均衡,避免线程空闲,提高资源利用率。
  6. 定制化的内存池管理:采用内存池技术,复用栈空间,减少内存分配和释放的开销,避免频繁的系统调用。
  7. 避免阻塞系统调用:通过异步IO或非阻塞IO配合事件驱动,减少了线程因IO操作而阻塞的情况,提高了CPU利用率。

进一步解释

  1. 用户态调度
    避免内核陷入;
    能够实现0系统调用(无需内核调度器);
类型上下文切换时长操作
用户态50 - 100 ns仅需保存/恢复必要的寄存器(约10个reg)
内核态1-5 us保存完整的上下文(浮点寄存器、信号处理器等);切换内核态堆栈
  1. M:N模型
维度M:N模型1:1模型(eg. pthread)
线程数量百万级用户线程千级系统线程
调度开销用户态协作式调度内核抢占式调度
内存占用每个线程约4-64KB栈每个线程约2-10MB
创建/销毁成本微秒级(纯用户态操作)毫秒级(需内核参与)
  1. 任务调度策略
  • 工作窃取算法
Task *steal_task()
{for (Worker &w : other_workers) {if (Task *t = w.queue.try_steal()) {return t;}}return nullptr;
}// 每个worker线程维护本地任务队列
// 空闲worker从其他worker的队列尾部窃取任务
// 减少锁竞争,提高CPU缓存命中率
  • 协作式调度
    显式yield让出cpu;
    避免不必要的抢占,减少上下文切换;
  1. 内存管理优化
  • 栈内存复用
class StackPool {
public:static constexpr int MAX_CACHED_STACKS = 1000;std::vector<void*> cached_stacks;void *alloc() {if (!cached_stacks.empty()) {return pop_back();}return ::malloc(STACK_SIZE);}void free(void *stack) {if (cached_stacks.size() < MAX_CACHED_STACKS) {cached_tasks.push_back(stack);} else {::free(stack);}}
};// 减少频繁的malloc/free
// 避免内存碎片

** 个人疑问?**
栈内存复用的场景是什么?

  1. 与异步I/O深度集成
  • 事件驱动架构
void async_read(int fd, void *buf, size_t size) {epoll_ctl(epoll_fd, EPOLL_CTL_ADD, fd, ...);bthread_yield();// IO完成后由事件循环唤醒
}// 通过epoll/kqueue实现非阻塞IO
// IO等待期间自动yield,不阻塞worker线程

3 性能对比数据

参考网络数据,本人未验证。

场景bthread吞吐量pthread吞吐量
10k空循环任务1.2M tasks/sec120K tasks/sec
网络代理(1KB包)850K req/sec65K req/sec
数据库访问720K QPS45K QPS

4 bthread适用场景

  1. 高并发网络服务(eg. web服务器、rpc框架)
  2. 大规模并行计算(eg. 分布式任务调度)
  3. 低延迟交易系统(eg. 金融订单处理)
  4. 资源受限环境(eg. 嵌入式设备)

5 代价与限制

  • 开发复杂度高
    eg. 需要手动处理yield点

  • 无法利用多核并行
    单个worker线程仍绑定单个cpu核心

  • 调试困难
    用户态线程的堆栈跟踪不如内核线程直观

6 汇总原因

bthread的高效源自现代多核硬件和网络服务特征的深度优化,通过减少不必要的内核交互、精细化资源管理和智能调度策略,在特定场景下可带来数量级的性能提升。

http://www.xdnf.cn/news/234307.html

相关文章:

  • 12.Three.js 中的 DirectionalLight(平行光)详解指南
  • Python第四周作业
  • 软件系统验收报告:功能、性能稳定性如何?数据导出卡顿咋回事?
  • SpringBoot使用Mybatis-Plus分页无效
  • 云蝠智能大模型呼叫,音色升级啦!
  • 这些是什么充电模块调试手段,对USB、Thermal、DP
  • 【Agent】MCP协议 | 用高德MCP Server制作旅游攻略
  • Compose Multiplatform+Kotlin Multiplatfrom 第六弹跨平台 AI应用
  • 大屏/门户页面兼容各种分辨率或电脑缩放
  • C++初阶-string类1
  • 手动实现二叉搜索树
  • AGI时代来临?2030年AI将如何改变人类社会?
  • Spark SQL 之 DAG
  • Linux容器大师:K8s集群部署入门指南
  • 校平机:金属板材加工的核心设备
  • 1295. 统计位数为偶数的数字
  • 大小写问题
  • 5.运输层
  • 解决在Mac上无法使用“ll”命令
  • python与c++变量赋值的区别
  • 【Linux庖丁解牛】—环境变量!
  • 深入解析词嵌入(Word2Vec、GloVe)技术原理:从词语到向量的转变
  • Transformer 模型及深度学习技术应用
  • Langchain+文本摘要-refine
  • Java零基础入门Day3:程序流程控制
  • Flowith:解放思维的AI画布让创意与效率如泉涌
  • 动画震动效果
  • 【Bootstrap V4系列】学习入门教程之 加载必要文件和入门模板
  • javascript 深拷贝和浅拷贝的区别及具体实现方案
  • 【每日八股】复习 Redis Day4:线程模型