这两天阿里出了个专家会议纪要,其中提了一个问题:我们赶上 GPT 3. 5 的难度是在调参还是在算力?最重要的核心瓶颈是什么?专家的回答如下图,我把重点标出来。
(资料图片)
专家回答,在算力不是问题的前提下,核心瓶颈有三个:第一是数据量,占比30%。第二是模型结构的创新,占比40%。第三是工程化落地能力,占比30%。
公司自己总结五大优势中,大规模优质数据资产和AI工程化落地能力是拓尔思核心优势。
今天不吹数据,吹多了没意思了。重点看工程化落地能力。
生成一个高质量行业大模型的关键,就是在通用大模型的基础上,利用行业数据进一步训练生产行业大模型,并对行业大模型调优实现。这其中,对通用大模型“再训练”、“调优”形成高质量行业大模型的两个基本动作,也决定了厂商必备的三大能力:丰富的行业数据积累、大模型调优能力、AI工程化。
而AI工程化是指提供AI应用开发的系列方法、工具和实践集合,形成快速测试、构建和部署AI应用开发流水线,加速AI应用落地过程,实现模型自动重新训练和部署。行业大模型只解决了大模型“可用”的问题,若想AI成为企业的生产力,还需要解决大模型“落地”的工程化问题,否则落地效率、周期会远超预期。
就如阿里专家会议纪要中所说:"我们都知道什么叫预训练、调优训练、推理训练,但是到具体的工程阶段没有任何可以参照的方法论,数据的处理,模型的训练,模型优化,模型的部署和运用,每个阶段都有一些方法论在里面,需要自己去摸索。包括你怎么样去获取高质量的数据,拿到这些数据以后怎么样通过工程化的手法把数据标注好,标注好以后怎么样去评测。如果数据质量不够高,你再喂养给模型,基本上是浪费时间,因为跑一轮下来花了几百万,但是你的精度可能只能调零点几,这样投产很不值得,所以在整个模型里面有 1/ 3 的时间是用来处理数据的,只有数据质量够好,才可以去后面做模型训练。做模型训练,中间你要去设定它的评估指标,而且你要在调试的过程中可视化的监控它,所以整个模型调优过程需要一套工程化的工具手段,要可量化,而且中间你要会干预,否则你几十层训练完几个月过去了,所以这种颗粒度的控制和可视化都有一些关键的方法论在里面,这种方法论也是海外跟我们拉开差距,以及我们自己相互拉开差距的比较重要一点,基本上要占百分之30。"
AI工程化能力涉及两个方面:1)通过分布式训练提升计算效率,解决大模型大体量参数、复杂网络结构带来的内存、通讯以及计算瓶颈;2)实现模型开发过程的持续生产、持续交付和持续部署。一方面,需要将定制化解决方案经验沉淀形成标准化产品,实现产品与服务的规模化,加速商业化落地效率;另一方面,也需要完善AI开发生命周期的工具、固化开发流程,提高模型开发全流程的紧耦合度,提升大模型训练效率。
$拓尔思(SZ300229)$
$三六零(SH601360)$
$昆仑万维(SZ300418)$