阶跃星辰 StepFun 入驻 GitCode 平台,带来工业级 AI 体验
⚠️上下文窗口局限:主流 AI 模型普遍受限于 4K-32K 的上下文长度,导致技术方案文档需被强制拆分处理,破坏架构设计的连贯性。
⚠️跨行业文档识别缺陷:传统 OCR 技术在专业场景中表现不佳:金融合同关键字段漏提取、医疗处方剂量识别偏差、工业图纸表格重建失真等问题频发。
⚠️私有化部署效率瓶颈:企业部署专用 AI 模型需完成算力采购、环境配置及推理优化全流程,普遍耗时超 6 周。
现在,国内 AI 技术黑马 阶跃星辰 Step Fun 携旗下模型正式入驻 GitCode,为开发者带来
零成本工业级 AI 体验!

Step3:面向开发者的"全栈式"大模型
架构突破
- 稀疏化 MoE 架构:321B 总参数 / 38B 激活参数
- MFA 注意力机制:降低 KV 缓存 50%,8×A100 集群支持工业级吞吐
- AFD 解耦系统:分离 Attention / FFN 计算流,Hopper GPU 吞吐达 4039 token/gpu/s
多模态协同创新
- 轻量视觉通路:5B 视觉编码器压缩 token 至 1/16
- 两阶段防干扰训练:冻结视觉编码器保障主干网络稳定
- 语料三重过滤:相似度筛选+重采样+任务比例控制
实测性能优势
- 复杂场景理解:MMMU 跨领域知识理解超开源 SOTA 模型
- 工业推演能力:解析 10 人座次图生成 12 人商务排座方案
- 极致推理成本:百万 token 输入 1.5 元,输出 4 元
📮项目链接:GitCode - 全球开发者的开源社区,开源代码托管平台
GOT-OCR-2.0-hf:统一架构的多模态文本理解引擎
核心能力
- 全格式文本解析:支持标准文档、场景文本、表格图表、数学公式、化学分子式及乐谱的联合识别
- 动态交互处理:通过坐标定位或色彩标记实现区域定向识别
- 跨页内容整合:原生支持多页文档连续语义重建
工业级工程特性
- 批量化推理:单次处理多张输入图像,避免循环调用开销
- 智能分块机制:自动切分非常规比例文档(如学术论文跨页排版)
- 格式输出兼容:原始文本可联动 verovio、matplotlib 等工具生成结构化渲染
应用场景验证
- 金融合同解析:定向提取关键字段
- 学术论文转换:跨页公式/图表协同重建
- 乐谱数字化:原始输出适配verovio渲染引擎
📮项目链接:GitCode - 全球开发者的开源社区,开源代码托管平台
Step-Video-T2V:超长视频生成工业级解决方案
架构突破
- 30B 参数量 DiT 骨干:48 层 ×48 头 3D 全注意力机制
- 深度压缩 VideoVAE:16× 空间压缩 + 8× 时间压缩( 128 倍数据浓缩)
- 视频 DPO 强化:基于人类偏好优化,显著降低画面伪影
性能标杆
生成能力:
► 最大 204 帧连续视频
► 支持 768×992 高分辨率生成
推理效率(A100×4 实测):
► 544×992×136 帧:72.48GB 显存 / 408 秒(启用 FlashAttention)
► 完整 204 帧生成需 80GB 显存级GPU
关键技术
- 3D-RoPE 编码:动态适应任意视频时长与分辨率
- QK-Norm 机制:确保 48 层深度网络稳定训练
- 流匹配训练法:优化噪声到潜空间的映射过程
📮项目链接:GitCode - 全球开发者的开源社区,开源代码托管平台
Step-Audio:开源音频处理基础架构
技术突破
- 130B 多模态基座:单模型同步支持语音识别/对话/合成/克隆
- 双码本 Token 化引擎:
- 语义码本:1024 词表(16.7Hz)
- 声学码本:4096 词表(25Hz)
- 2:3 时序交织对齐
- 可控语音生成:支持 20+ 方言/情绪/语速/韵律(说唱/哼唱)
核心组件
- 流匹配声码器:离散 token →高保真波形转换(MOS 4.11)
- 实时推理管线:语音活动检测→流式 Token 化→推测式生成(40% 提交率)→14:1 上下文压缩
- 指令控制引擎:方言(四川话/粤语)· 情绪(愤怒/欢快)· 韵律(说唱/朗诵)精准调控
权威认证
- ASR 性能:Aishell-1 测试集 CER 0.87%
- TTS 自然度:SEED 评测集 SSIM 0.812
- 对话智能:StepEval-360 综合得分 4.11
📮项目链接:GitCode - 全球开发者的开源社区,开源代码托管平台
Step1X-Edit:工业级图像编辑统一架构
核心能力突破
- 多模态指令编辑:支持文本/图像混合指令驱动(示例:”将西装换成唐装并添加水墨背景”)
- FP8 量化推理:显存需求降至 18GB(1024px 图像),速度提升 40%
- LoRA 微调系统:单卡 24GB GPU 支持角色特征定制(如动漫手部修复)
技术架构创新
- 多模态理解器:Step 系列 LLM 融合图像语义与文本指令,复杂指令准确率提升 35%
- 扩散解码引擎:潜在嵌入空间优化+动态降噪调度,1024px 图像生成仅需 5.82秒(4×H800)
- TeaCache 加速:阈值自适应缓存机制(默认 0.2 平衡效率/质量),推理速度提升 300%
📮项目链接:GitCode - 全球开发者的开源社区,开源代码托管平台
开源愿景
阶跃星辰将核心 AI 模型在 GitCode 平台开源,旨在构建开发者共建的技术生态,未来还将进一步开放更多工业级模型,提供持续优化的基础架构支持。GitCode 团队也将同步开放工具链资源与部署通道,助力开发者快速实现场景落地。
诚邀全球开发者参与模型优化、行业适配器开发及标准建设,共同推动 AI 技术的开放进化。
📮加入协作:
GitCode 项目主页:GitCode - 全球开发者的开源社区,开源代码托管平台