当前位置: 首页 > ops >正文

TensorFlow Serving学习笔记2: 模型服务

本文深入剖析 TensorFlow Serving 的核心架构与实现机制,结合源码分析揭示其如何实现高可用、动态更新的生产级模型服务。

一、TensorFlow Serving 核心架构

1.1 分层架构设计

TensorFlow Serving 采用模块化分层设计,各组件职责分明:

组件职责源码位置
Servables可服务对象(如模型),基础服务单元core/servable.h
Loaders管理模型加载/卸载生命周期core/loader.h
Managers管理 Servable 集合,路由请求到正确版本core/manager.h
Sources提供 Loader,通知 Manager 新版本可用core/source.h
ServerCore中枢系统,协调各组件工作model_servers/server_core.h
1.2 请求处理全流程
Client REST/gRPC PredictionService ServerCore Session HTTP/gRPC请求 路由请求 获取模型 执行session.run() 返回预测结果 封装响应 返回预测数据 Client REST/gRPC PredictionService ServerCore Session

二、核心机制深度解析

2.1 动态模型加载机制

核心流程

加载
检测新模型
创建Loader
构建LoaderHarness
状态机管理
kReady
提供服务

LoaderHarness 状态机

enum class State {kNew,        // 新建状态kLoading,     // 加载中kReady,       // 就绪状态kQuiescing,   // 静默中kUnloading,   // 卸载中kError        // 错误状态
};

关键设计

  1. 线程安全状态转换
Status LoaderHarness::Load() {mutex_lock l(mu_); // 状态锁TransitionState(State::kLoading);// ...执行加载
}
  1. 自动资源回收
LoaderHarness::~LoaderHarness() {if (state_ == State::kReady) Unload();
}
2.2 ServerCore 启动流程

BuildAndStart() 函数核心逻辑:

Status Server::BuildAndStart(const Options& opts) {// 1. 配置验证if (opts.grpc_port == 0) return errors::InvalidArgument("端口未设置");// 2. 构建ServerCore配置ServerCore::Options options;// 3. 模型配置加载if (opts.model_config_file.empty()) {options.model_server_config = BuildSingleModelConfig(...);} else {TF_RETURN_IF_ERROR(ParseProtoTextFile(...));}// 4. 资源配置session_bundle_config.mutable_session_config()->mutable_gpu_options()->set_per_process_gpu_memory_fraction(0.8); // GPU内存限制// 5. 创建ServerCore核心TF_RETURN_IF_ERROR(ServerCore::Create(std::move(options), &server_core_));// 6. 启动gRPC服务::grpc::ServerBuilder builder;builder.AddListeningPort(..., BuildServerCredentials(...));grpc_server_ = builder.BuildAndStart();// 7. 启动HTTP服务if (opts.http_port != 0) {http_server_ = CreateAndStartHttpServer(...);}return Status::OK();
}

在这里插入图片描述

三、关键设计亮点

3.1 动态更新机制
配置文件变更
PeriodicFunction轮询
触发ReloadConfig
增量加载新模型
流量无缝切换

实现代码

fs_config_polling_thread_.reset(new PeriodicFunction([this, config_file] {this->PollFilesystemAndReloadConfig(config_file);},poll_interval * 1000000  // 微秒单位
));
3.2 资源隔离设计

GPU内存隔离

// 限制单模型GPU内存使用
session_bundle_config.mutable_session_config()->mutable_gpu_options()->set_per_process_gpu_memory_fraction(0.6);

并行计算优化

// 智能并行配置
if (intra_op > 0 || inter_op > 0) {// 分别设置算子内/间并行度session_config->set_intra_op_parallelism_threads(intra_op);session_config->set_inter_op_parallelism_threads(inter_op);
} else {// 统一并行设置session_config->set_intra_op_parallelism_threads(session_parallel);session_config->set_inter_op_parallelism_threads(session_parallel);
}

四、生产级特性实现

4.1 服务高可用设计
机制实现方式效果
模型预热enable_model_warmup 参数避免冷启动延迟
失败重试max_num_load_retries 配置提升模型加载成功率
版本回滚AvailabilityPreservingPolicy 策略自动回退问题版本
4.2 安全通信保障

SSL/TLS 加密配置

::grpc::SslServerCredentialsOptions ssl_ops(GRPC_SSL_REQUEST_AND_REQUIRE_CLIENT_CERTIFICATE_AND_VERIFY);
ssl_ops.pem_root_certs = custom_ca;  // 自定义CA

五、核心参数大全

参数名类型默认值作用
grpc_portintgRPC服务端口(必须设置)
model_base_pathstring单模型基路径
per_process_gpu_memory_fractionfloat1.0GPU内存分配比例
tensorflow_intra_op_parallelismint0算子内并行线程数
fs_model_config_poll_wait_secondsint0配置轮询间隔(秒)
enable_model_warmupboolfalse启用模型预热减少延迟

Reference

TensorFlow 入门实操 源代码 tensorflow serving源码分析_mob6454cc6bf0b7的技术博客_51CTO博客

TensorFlow Serving源码解读_tensorflow serving 代码解析-CSDN博客

tensorflow-serving源码阅读1_tensorflow源码阅读-CSDN博客

tensorflow serving 源码 tensorflow源码阅读_柳随风的技术博客_51CTO博客

https://zhuanlan.zhihu.com/p/700830357

http://www.xdnf.cn/news/14132.html

相关文章:

  • Mysql数据库安装图解
  • EngineAI 1. Start/Resume Training
  • pyhton基础【7】容器介绍二
  • iOS 审核 cocos 4.3a【苹果机审的“分层阈值”设计】
  • 详解智能指针
  • 大规模异步新闻爬虫的分布式实现
  • 理解C++中传引用和传值的区别
  • CTFshow-PWN-栈溢出(pwn56-pwn59)
  • 学习Oracle------认识VARCHAR2
  • langchain从入门到精通(七)——利用回调功能调试链应用 - 让过程更透明
  • Wiiu平台RetroArch全能模拟器美化整合包v1.18
  • 【大模型应用开发】SpringBoot 整合基于 Ollama 的 DeepSeek,并对接前端( 全部代码 !!!)
  • TensorFlow 2.0 与 Python 3.11 兼容性
  • 查找PPT中引用的图表在哪个EXCEL文件中
  • 笔记本电脑安装win11哪个版本好_笔记本电脑安装win11专业版图文教程
  • Spring中观察者模式的应用
  • 【论文解读】AgentThink:让VLM在自动驾驶中学会思考与使用工具
  • sql列中数据通过逗号分割的集合,对其中的值进行全表查重
  • NAS 资源帖
  • STM32项目---汽车氛围灯
  • flowable工作流的学习demo
  • 【本地虚拟机】xshell连接虚拟机linux服务器
  • 云平台|Linux部分指令
  • 【Erdas实验教程】021:遥感图像辐射增强( 查找表拉伸)
  • NLP学习路线图(四十七):隐私保护
  • YOLOv8新突破:FASFFHead多尺度检测的极致探索
  • 【模板】埃拉托色尼筛法(埃氏筛)
  • Spring-rabbit重试消费源码分析
  • OCCT基础类库介绍:Modeling Data - 2D Geometry 3D Geometry Topology
  • Javascript和NodeJS异常捕获对比