当前位置:首页 >>新闻资讯 >>

大模型时代的工业AI范式:小模型干活,大模型“当家”

2026年06月14日 21:52
 

篇首语

此前,视比特正式发布了“翔云AI运维平台1.0”,打通了工业AI运维的全链路闭环。本文将解读翔云平台的定位与底层逻辑。在翔云1.0中,我们已经引入了基于AI智能体的智能运维功能;在即将面世的翔云2.0中,我们将推出“多角色模型协作”的全新架构,开启大模型时代工业AI进化的新范式。

扫描上方二维码,获取翔云平台免费试用!

这种现状并非技术滞后,而是由工业环境的特性决定的。首先是算力与成本的刚性约束:大模型参数量巨大,部署门槛极高,在资源受限的边缘侧和产线终端,轻量化的小模型显然是更务实的选择。其次是频繁的数据分布漂移:工业现场的工艺或工况变化会不断改变数据分布,当模型面对从未见过的数据时,微调往往是不可避免的。但大模型微调开销高昂是追求极致效率的生产现场难以承受的。因此,以小模型为主的工业AI格局,在未来很长一段时间内仍将持续。

然而,小模型的问题在于需要长期的“看护”。受数据分布漂移等影响,小模型时常面临“刚上线就过时”的窘境。为了确保模型持久可用,必须建立一套涵盖持续数据回流、持续模型训练,持续部署集成的闭环机制。由此,MLOps(机器学习运维)应运而生[1]对于MLOps业界早已有成熟的标准工作[2,3]。视比特“翔云平台1.0”已经将其固化为一套完整的自动化工具链,极大提高了AI运维的效率。但在MLOps中,人仍需深度参与AI运维的整个链条中去。例如,工程师需要根据产线上模型的性能表现来决定是否回流现场数据,然后进行人工数据标注,再决定模型如何微调……如此,在面对大规模模型运维时,人力成本依然是难以回避的瓶颈。

进入大模型时代,AI智能体(AI Agent)成为破解运维瓶颈的关键。大语言模型赋予了Agent强大的逻辑推理、规划和工具调用能力。它可以自主感知当前AI项目的进展程度、监控模型运行状态,并在发现数据异常或性能下降时自动编排工作流,依靠自主决策驱动MLOps工作流。工作流中的一些标准动作还可以被封装成“技能(Skills)”供Agent随时调用。这样一来,人类工程师被极大程度地从繁琐的流水线作业中解放出来,只需要在关键环节上进行高阶判断与决策即可

于是AI开发和运维的基本架构将被重塑,这正是翔云平台2.0”所践行的核心理念。在这个新架构中,上层是一个基于大模型的Agent,负责分析用户需求,选择合适的“工作模型(Worker Models)”,并编排启动从数据收集、模型训练到部署、监控、难样本回流再到微调重部署的完整闭环。同时,Agent还可以根据现场情况,灵活调用各类“工具模型(Tool Models)”。这些工具模型(无论大小)专门用于负样本生成、伪标签生成等离线数据增强和模型辅助训练,为主力的工作模型提供高质量的“数据服务”。

大模型时代的工业AI范式——Agent组织大量Tool ModelsWorker Models提供高质量的MLOps运维服务

综上所述,在大模型时代,工业AI项目的运行模式并非我们过去常设想的那种“大模型指挥小模型”的“主从模式(Master-Slave)”。在真实的工业应用中,大模型往往并不需要对小模型发号施令,参与小模型的现场决策,而是要为其提供“主动的支持与护航”。这一种全新的“管家-工作者模式(Steward-Worker)”。在这种模式下,作为管家的Agent 担任了“后勤保障员”的角色:它隐于后台(云侧),实时监测端侧工作模型的健康度,通过智能分析决策,动态补充数据,持续优化模型实现精准、高效的数据服务主动保障好奋战在前线的每一个小模型,确保它们能够持续精进,始终保持健康且高效的工作状态。

大模型主内,小模型主外。大模型在后方提供强大的智能服务与保障,让小模型在产线发挥极致的性能与效率,才是大模型时代工业AI最务实、也最高效的落地之道。

[1] Andrew Ng:“Machine Learning in Production(生产中的机器学习)” [2] 亚马逊:“你为什么要使用 MLOps?”[3] 谷歌:“MLOps:机器学习中的持续交付和自动化流水线”