FP8模型不再挑卡！DeepSeek推理成本减半速度翻番，清华团队开源「赤兔」推理引擎 - 公司新闻

机器之心原创

作者：闻菲、张倩

随着引燃市场对于大模型私有化部署的热情，模型部署的效率与成本成为企业 AI 落地的关键瓶颈。

今天，清华系科创企业清程极智与清华大学翟季冬教授团队联合宣布开源大模型推理引擎「赤兔」（Chitu），率先实现了非 H 卡设备（英伟达 Hopper 架构之前的 GPU 卡及各类国产卡）运行原生 FP8 模型的突破。

在 A800 集群上的实测数据显示，用赤兔引擎部署 DeepSeek-671B 满血版推理服务，相比于 vLLM 部署方案，不仅使用的 GPU 数量减少了 50%，而且输出速度还提升了 3.15 倍。

相关文章