科大讯飞星火大模型会超预期吗？（二）_环球热讯_金融

吹泡泡逻辑首发原文链接

(资料图片)

本来科大讯飞这个发布会该写的都写过了，我觉得没啥再更新的必要了，这么大盘子，短线没啥看头，周五尾盘居然都没有进来赌超预期的（也是好事）

发布会的内容也基本上想的到。但是发现开完确实有超预期的地方，也看到了很多转发的券商点评，但是建议先看看我五一写的《科大讯飞星火发布会超预期吗？》，再来决定要不要看我往下扯：

超预期的地方在于:

首先我是相信的，这里其实不是老师们理解的那种超越。

因为ChatGPT英文更优秀，而科大讯飞表述的超越部分是中文，这个不矛盾。

其实我们打破国外技术垄断的例子很多，比如科大讯飞在语音识别领域是当之无愧的NO1，万华化学是MDI领域当之无愧的NO1，这些都是从当初的不可能变成被打破的，不然他们不会一直吃红利吃到现在。

其次，他直接说遥遥领先国内可测的大模型，到底是情商低吹牛呢，还是真的按捺不住呢？不好说，但看了我前面关于科大讯飞的文章，我是相信的。

我发现很多人有个误区，过分高看名义上的大模型，忽视语音识别？容易把刁钻对话当成推理（我称之为脑经急转弯），甚至数据源的错误这么简单的非技术问题，也会当bug来看。

建议真心想测试的，找个业内的从业人员，至少是程序员帮忙测吧。举例说明，你非要问他一个人长了五只眼睛的问题，那么平时训练也得是从权威期刊的论文和临床病例里面来训练吧，你问的这么刁钻肯定回答不了，他也判断不了你是来搞笑的还是真问问题的，结果当然很诡异。所以说大模型存在的意义还是帮助我们提高科研和生产生活水平的，也许未来专门会有搞笑大模型，专门来训练这些刁钻问题脑经急转弯玩的，否则正常的测试，应该找个专业人士，结合最终目的来测，比如讯飞的AI+医疗已经运用于救死扶伤的医疗救治了，讯飞的学习机已经帮助孩子修改作文提高作文水平了，而你还在测各种稀奇古怪的问题，有什么实际意义呢？除了搞笑大模型，别的任何一个模型测出来估计都会有问题。

早在2021年，国际低资源多语种语音识别竞赛OpenASR落下帷幕，科大讯飞-中科大语音及语言信息处理国家工程实验室（USTC-NELSLIP）联合团队（以下简称联合团队）参加了所有15个语种受限赛道和7个语种非受限赛道，并全部取得第一名的成绩！（就是说国外卡脖子的技术，被科大讯飞攻克后，除了中文外，其它14个语种的语音识别也都是全球第一）。

这就是我说的真实逻辑，但是很多时候你要接受市场是对的，市场资金不认可，再优秀也枉然。

虽然知道讯飞有这些产品，但是比如说学习机办公本、讯飞听见、合成虚拟人的产品细节处理上，我认为进步非常大。如果你是相关行业的人，肯定知道这种水平的应用，纵使有瑕疵，也遮掩不住其打磨产品的周期和态度。

那么多大模型还在预训练和训练的阶段，讯飞都已经把产品化的细节处理到了这个程度（当很多发布会还在打字提问，讯飞已经通过语音输入、大模型回答转成语音播报，甚至中英文对话、转换成虚拟人生成视频等，都已经融合的很好了），现场随机抽取提问，也看得出来，公司根本不在乎提问环节是不是完美，因为ChatGPT都有错误，有些错误反而也是训练的一部分，重要的看是否信心十足，是不是ppt发布会。

看过发布会的肯定能理解这对办公效率的提升程度（也意味着其它企业可以从成本角度，直接付费购买）超预期的并不是这些产品，这些产品其实一直都有，超预期的地方在于这些产品细节打磨的很好，并且已经是在大量销售的产品。

当有的人还在为讯飞发布会会不会翻车而担心的时候，公司的重心已经放在了产品销售上了，也就是向所有人宣布，不是跟你们吹概念，让你们觉得我多牛，我就是直接给你展示大模型同步支撑的产品，希望你们多多买产品，孩子家长还有学校赶快采买学习机，公司领导赶快采购讯飞办公本、录音笔、讯飞听见，甚至文字工作者们赶快购买，效率提升不是一星半点。

发布会敢一直在屏幕下面轮番弹窗带货，关都关不掉，足见公司的重点根本不是要大家相信讯飞大模型遥遥领先，而是希望大家多买大模型的产品化终端。

讯飞这里提到了是超过GPT4，而前面提到的中文超过ChatGPT（没有提4），我就知道，医疗这里的细分领域，他是有自信的。因为实践实践做够久，我推测在医院的真实场景训练时间足够久，当然也得益于我们国家的人口基数众多，这个是不争的事实，非常看好讯飞在这里的行业应用。

首先，发布会营销上你夸大一点，没有问题，但是敢这么高调，基本盘是有多扎实？其次我要解答一下大家问题了，讯飞凭什么？很好理解，我们都知道算力紧缺，训练费用昂贵，现在预训练和训练的成本不是一般高。

但是你别忘了，科大讯飞1999年成立，满打满算20多年了，语音识别本质上就是大模型前身，不说训练了20年，也训练十几年了，讯飞几个月喂的可能远远不如你的，但是人家十几年喂的你知道有多少吗？（举例说明，看到讯飞发布会音频文字自由转换，会议纪要可以自由总结生成纪要，试想讯飞的语料护城河里面的语音数据转换成结构化文本，不要太容易）

可能很多人不信，我前面的文章已经提过，我和某语音识别团队走的很近，我当然知道语音识别不就是大模型前身嘛（或者你叫小模型、中模型？），2015年前后搞语音识别模型升级时候，连续对话流行的词好像叫“从语音识别到语义识别”“深度神经网络”。

早在2015年前，科大讯飞就稳稳坐上了语音识别一哥的宝座，那收集的语料护城河，在语音识别，后面的语音输入、翻译等等领域都训练了十多年了，你当我前面文章写十年磨一剑是瞎说呢？公司今天宣传口径看样子是二十年磨一剑。

而且很多东西，真的不是新东西。我来告诉你们2015年讯飞可以做到什么，一个是十几年来不断优化升级，一个是近年才从头开始，这个积累，软、硬件产品的从业者最清楚吧：

开车不方便拨打电话就可以给讯飞合作的车机（就是现在的智能座舱）打电话：

“我要拨打电话”

“请问打给谁”

“我要拨给XXX”

“请稍后，正在为您接通”

这个场景就解决了开车翻找电话本造成的风险了，这种连续对话能力，2015年就可以实现了。

第二个场景：

打电话给讯飞：

“请帮我订一张明天去深圳的机票”

“请问你要头等舱还是经济舱”

“我要靠窗的”

“好的，已为您预定，深圳有雨，请别忘记带雨伞”

当然，那时候的场景，后台订票肯定是人工收到指令去出票，换成现在，肯定可以实现授权后的在线支付了。

我上面举的例子，其实是想说从语音识别角度，2015年就可以实现连续对话了，现在文字输入的连续对话，无非是推理能力加强了，算力加强了，模型更大算法更优了，训练的更多了，但不可否认，这已经又过去八年了，讯飞这么多年靠着语音识别进入这么多行业，推出这么多行业和个人产品，你说他的模型不随之不断训练升级吗？哪个产品不等于在不断往回喂语料训练？

这也是我前面说过的，要看传承，十几年的积累，无论是语音识别领域，还是搜索引擎领域，都不至于现在还要从头预训练，都训练十几年了，就像一个团队完备的中餐馆改造成自助餐店，比起重新招人租房子把毛坯改造成自助餐店，哪个快？哪个费钱？不难理解吧？

说到这里，讯飞的超预期是毋庸置疑的，前面文章也说过了，你要几分清醒几分醉呢？不过逻辑归逻辑，市场归市场，我只科普逻辑。

吹泡泡逻辑首发原文链接

$科大讯飞(SZ002230)$