吹泡泡逻辑 首发原文链接
(资料图片)
本来科大讯飞这个发布会该写的都写过了,我觉得没啥再更新的必要了,这么大盘子,短线没啥看头,周五尾盘居然都没有进来赌超预期的(也是好事)
发布会的内容也基本上想的到。但是发现开完确实有超预期的地方,也看到了很多转发的券商点评,但是建议先看看我五一写的《科大讯飞星火发布会超预期吗?》,再来决定要不要看我往下扯:
超预期的地方在于:
首先我是相信的,这里其实不是老师们理解的那种超越。
因为ChatGPT英文更优秀,而科大讯飞表述的超越部分是中文,这个不矛盾。
其实我们打破国外技术垄断的例子很多,比如科大讯飞在语音识别领域是当之无愧的NO1,万华化学是MDI领域当之无愧的NO1,这些都是从当初的不可能变成被打破的,不然他们不会一直吃红利吃到现在。
其次,他直接说遥遥领先国内可测的大模型,到底是情商低吹牛呢,还是真的按捺不住呢?不好说,但看了我前面关于科大讯飞的文章,我是相信的。
我发现很多人有个误区,过分高看名义上的大模型,忽视语音识别?容易把刁钻对话当成推理(我称之为脑经急转弯),甚至数据源的错误这么简单的非技术问题,也会当bug来看。
建议真心想测试的,找个业内的从业人员,至少是程序员帮忙测吧。举例说明,你非要问他一个人长了五只眼睛的问题,那么平时训练也得是从权威期刊的论文和临床病例里面来训练吧,你问的这么刁钻肯定回答不了,他也判断不了你是来搞笑的还是真问问题的,结果当然很诡异。所以说大模型存在的意义还是帮助我们提高科研和生产生活水平的,也许未来专门会有搞笑大模型,专门来训练这些刁钻问题脑经急转弯玩的,否则正常的测试,应该找个专业人士,结合最终目的来测,比如讯飞的AI+医疗已经运用于救死扶伤的医疗救治了,讯飞的学习机已经帮助孩子修改作文提高作文水平了,而你还在测各种稀奇古怪的问题,有什么实际意义呢?除了搞笑大模型,别的任何一个模型测出来估计都会有问题。
早在2021年,国际低资源多语种语音识别竞赛OpenASR落下帷幕,科大讯飞-中科大语音及语言信息处理国家工程实验室(USTC-NELSLIP)联合团队(以下简称联合团队)参加了所有15个语种受限赛道和7个语种非受限赛道,并全部取得第一名的成绩!(就是说国外卡脖子的技术,被科大讯飞攻克后,除了中文外,其它14个语种的语音识别也都是全球第一)。
这就是我说的真实逻辑,但是很多时候你要接受市场是对的,市场资金不认可,再优秀也枉然。
虽然知道讯飞有这些产品,但是比如说学习机办公本、讯飞听见、合成虚拟人的产品细节处理上,我认为进步非常大。如果你是相关行业的人,肯定知道这种水平的应用,纵使有瑕疵,也遮掩不住其打磨产品的周期和态度。
那么多大模型还在预训练和训练的阶段,讯飞都已经把产品化的细节处理到了这个程度(当很多发布会还在打字提问,讯飞已经通过语音输入、大模型回答转成语音播报,甚至中英文对话、转换成虚拟人生成视频等,都已经融合的很好了),现场随机抽取提问,也看得出来,公司根本不在乎提问环节是不是完美,因为ChatGPT都有错误,有些错误反而也是训练的一部分,重要的看是否信心十足,是不是ppt发布会。
看过发布会的肯定能理解这对办公效率的提升程度(也意味着其它企业可以从成本角度,直接付费购买)超预期的并不是这些产品,这些产品其实一直都有,超预期的地方在于这些产品细节打磨的很好,并且已经是在大量销售的产品。
当有的人还在为讯飞发布会会不会翻车而担心的时候,公司的重心已经放在了产品销售上了,也就是向所有人宣布,不是跟你们吹概念,让你们觉得我多牛,我就是直接给你展示大模型同步支撑的产品,希望你们多多买产品,孩子家长还有学校赶快采买学习机,公司领导赶快采购讯飞办公本、录音笔、讯飞听见,甚至文字工作者们赶快购买,效率提升不是一星半点。
发布会敢一直在屏幕下面轮番弹窗带货,关都关不掉,足见公司的重点根本不是要大家相信讯飞大模型遥遥领先,而是希望大家多买大模型的产品化终端。
讯飞这里提到了是超过GPT4,而前面提到的中文超过ChatGPT(没有提4),我就知道,医疗这里的细分领域,他是有自信的。因为实践实践做够久,我推测在医院的真实场景训练时间足够久,当然也得益于我们国家的人口基数众多,这个是不争的事实,非常看好讯飞在这里的行业应用。
首先,发布会营销上你夸大一点,没有问题,但是敢这么高调,基本盘是有多扎实?其次我要解答一下大家问题了,讯飞凭什么?很好理解,我们都知道算力紧缺,训练费用昂贵,现在预训练和训练的成本不是一般高。
但是你别忘了,科大讯飞1999年成立,满打满算20多年了,语音识别本质上就是大模型前身,不说训练了20年,也训练十几年了,讯飞几个月喂的可能远远不如你的,但是人家十几年喂的你知道有多少吗?(举例说明,看到讯飞发布会音频文字自由转换,会议纪要可以自由总结生成纪要,试想讯飞的语料护城河里面的语音数据转换成结构化文本,不要太容易)
可能很多人不信,我前面的文章已经提过,我和某语音识别团队走的很近,我当然知道语音识别不就是大模型前身嘛(或者你叫小模型、中模型?),2015年前后搞语音识别模型升级时候,连续对话流行的词好像叫“从语音识别到语义识别”“深度神经网络”。
早在2015年前,科大讯飞就稳稳坐上了语音识别一哥的宝座,那收集的语料护城河,在语音识别,后面的语音输入、翻译等等领域都训练了十多年了,你当我前面文章写十年磨一剑是瞎说呢?公司今天宣传口径看样子是二十年磨一剑。
而且很多东西,真的不是新东西。我来告诉你们2015年讯飞可以做到什么,一个是十几年来不断优化升级,一个是近年才从头开始,这个积累,软、硬件产品的从业者最清楚吧:
开车不方便拨打电话就可以给讯飞合作的车机(就是现在的智能座舱)打电话:
“我要拨打电话”
“请问打给谁”
“我要拨给XXX”
“请稍后,正在为您接通”
这个场景就解决了开车翻找电话本造成的风险了,这种连续对话能力,2015年就可以实现了。
第二个场景:
打电话给讯飞:
“请帮我订一张明天去深圳的机票”
“请问你要头等舱还是经济舱”
“我要靠窗的”
“好的,已为您预定,深圳有雨,请别忘记带雨伞”
当然,那时候的场景,后台订票肯定是人工收到指令去出票,换成现在,肯定可以实现授权后的在线支付了。
我上面举的例子,其实是想说从语音识别角度,2015年就可以实现连续对话了,现在文字输入的连续对话,无非是推理能力加强了,算力加强了,模型更大算法更优了,训练的更多了,但不可否认,这已经又过去八年了,讯飞这么多年靠着语音识别进入这么多行业,推出这么多行业和个人产品,你说他的模型不随之不断训练升级吗?哪个产品不等于在不断往回喂语料训练?
这也是我前面说过的,要看传承,十几年的积累,无论是语音识别领域,还是搜索引擎领域,都不至于现在还要从头预训练,都训练十几年了,就像一个团队完备的中餐馆改造成自助餐店,比起重新招人租房子把毛坯改造成自助餐店,哪个快?哪个费钱?不难理解吧?
说到这里,讯飞的超预期是毋庸置疑的,前面文章也说过了,你要几分清醒几分醉呢?不过逻辑归逻辑,市场归市场,我只科普逻辑。
吹泡泡逻辑 首发原文链接
$科大讯飞(SZ002230)$