在ChatGPT出世半年,爆火将近2月后,中国版AI大模型终于崭露头角。
3月16日,百度于北京总部召开新闻发布会,主题围绕基于文心大模型技术生成式对话产品——文心一言,这也预示着中国首个类ChatGPT产品面世。在其正式推出前,市场早已波涛汹涌,首批生态合作伙伴阵容群星闪耀 ,兴业银行、科创信息、北京现代等超过650家知名企业及机构陆续官宣接入文心一言,寄希望抢占中国ChatGPT的第一波红利。
百度同时公布了文心一言的邀请测试方案。3月16日起,首批用户即可通过邀请测试码,在文心一言官网体验产品,后续将陆续开放给更多用户。此外,百度智能云即将面向企业客户开放文心一言API接口调用服务。3月16日起正式开放预约,搜索“百度智能云”进入官网,可申请加入文心一言云服务测试。
在此之前,AI大模型已在全球掀起军备竞赛,国际上谷歌、微软分庭抗礼,Brad、NewBing论战不断,国内闻风而动,百度、阿里、360、腾讯积极入场,AI FOMO点燃科技圈。其中,百度作为第一梯队传统的国产搜索巨头,All In AI之心尤为突出,市场甚至传言百度曾下3月必出产品的生死状,此前百度就已试水AI作画与产业级搜索引擎文心一格和文心百中。
在万众期待中,文心一言终于上线。无独有偶,近日OpenAI推出ChatGPT-4,在文本准确性与逻辑架构方面实现了更为惊艳的突破。而与此相比令人玩味的是,发布会召开后,百度股价不涨反跌,不少梗图频现,消费者对产品预期之低可见一斑。
小小的发布会竟有如此奇效,不知百度是否心有悔意,其CEO李彦宏也直称文心一言并不完美,发布是因为有市场需求。对此,我们先来看看现场展示中文心一言的表现能力。
发布会现场,李彦宏展示了文心一言在五个使用场景的表现,包括文学创作、商业文案创作、数理推算、中文理解和多模态生成。尽管被指责为录播,但也在一定程度上展示出文心一言的基本内核,展示类别已基本代表了当下文心一言的极限能力。
在文学创作方向,问题主要围绕《三体》进行询问,包括作品信息、核心内容、续写创作,从其回答表现来看,问题准确性与上下文的逻辑联系性表现尚可,以搜索引擎论已属优异,但类人性不足,可明显感知信息多从语料资料库中集成而来,并无直接对话之感。
在商业文案创作中,公司起名、Slogan、新闻稿创作能力更多侧重于考察语义的理解力,就这部分而言,笔者认为文心一言语义理解已可达标,在回答之余会自动增加冗余的额外解释,但整体内容更倾向于正确的废话。
除了基本的文学方向,文心一言已可尝试解决含逻辑思维的数学推演题目,现场成功计算鸡兔同笼经典题型,并可发现题目中隐含的错误,但解答本质上和当下的小猿搜题、作业帮等第三方解题软件并无区别,部分与网页提取答案几乎一模一样。
同时反观ChatGPT-4,其在各种专业测试和学术基准上的表现与人类水平相当,不仅以前 10%的超强能力通过了模拟律师考试,SAT成绩达到710,且具备解决高难度数理逻辑,拆解多语言复杂题型,量子速读看论文总结摘要的能力。两相对比,文心一言在其面前宛如蚍蜉撼树,而由于录播缺乏真实性,甚至有部分弹幕戏言中美人工智能的分界线即为中国有人工,美国有智能。
当然,文心一言也并未一无是处,起码在国内,其仍代表着第一梯队的水平。
仅从技术而言,与当前主流的BERT与GPT系列不同,文心一言核心引擎为百度自主推出的NLP模型ERNIE,2019年推出后,ERNIE已迭代至3.0版本。但从其发布论文来看,整体框架仍基于BERT模型改进,ERNIE1.0主要针对BERT系列中的中文表现进行优化,2.0则通过增加预训练任务,设计多任务学习最大限度地从训练语料库中提取词汇、句法和语义信息,而3.0则补充知识实体关系的同时兼顾语言理解与语言生成的统一预训练框架,将自回归和自编码网络融合加入预训练,在训练时引入大规模知识图谱类数据。根据百度官方数据,ERNIE模型参数规模达到2600亿,超过GPT3系列的1750亿元约50%。
而从模型差异看,两者都是基于Transformer模型架构,但GPT采用单向语言模型,而BERT采用双向语言模型,在实际操作时 GPT对于文本生成更为敏感,即如聊天、写作等语言生成方向表现优异,而BERT对于文本理解更为敏感,在问答、语义关系抽取更有优势。基于BERT的ERNIE自然也天然继承其优点,并在知识图谱生成中增加了该优势。
换而言之,仅以技术描述论,文心ERNIE类人性稍差,回答以精准理解为主,同时更多聚焦于本土化,在语义复杂的中文NPL处理中有显著优势,毕竟由于各种限制,即使是最新版本GPT-4测试的26种语言中也并未涵盖中文。实际问答题体验中,当涉及中文语义理解时,ERNIE表现突出,甚至部分胜于GPT3.5。
例如在关于洛阳纸贵的回答中,文心一言可正确理解其的经济现象,古诗词的可读性和观赏性也更高,更符合国人的审美与品味。
同样的问题,对比一下老版本ChatGPT。可以看出,ChatGPT对此理解力相对较差,甚至开始胡编乱造答案,而在藏头诗的撰写中,拟定要求也与题干存在一定差异。
另一可圈可点的方向是在多模态生成,文心一言现场AI生成文字、图片、音频、视频等能力较为亮眼,尽管技术在海报修改、方言输出仍相对有限,作为单一产品横向对标尚有难度,但从整体AIGC市场而言,表现已属不错。作为对比,尽管GPT-4已可识别梗图、漫画,但在多模态方向仍未公开其他数据,此点后续也可期待。
总体而言,尽管仍存在类人性差、输入限制等诸多不足,录播现场也无法判断流畅性与其他功能,但文心一言的语义理解、问答准确性以及逻辑能力已初步显现,但市场,显然并不买账。
在发布会的节点中,百度股价一度应声跳水9.81%,最低价格触及120港元,而纵观发布会现场的评论,也有众多用户发布看跌言论。
究其缘由,无非是事前对文心一言抱有较高预期,而GPT-4的提前发布所展现的强大性能也让市场对于文心一言的比较门槛不断攀升。从性能来比较,百度除在中文语义占据天然优势外,在数理处理、语言能力、信息整合与类人性方面与之可谓是天差地别,当用户畅想与文心一言进行融合认知性与情感性的智能对话时,得来的结果与此前搜索引擎似乎并无差异,失望之情自然是溢于言表,而百度如此焦急的推出产品,也被市场理解为迎合需求的炒作,滥竽充数之称充斥于市场。
目前来看,AI大模型方向的中美之间代际差是真实存在的,除了高技术的算力算法、高质量数据、高密度人才的集中投入差外,现实的市场环境也难辞其咎。从长远来看,OpenAI接近10年的蛰伏与挥金如土的研发,离不开海外市场对硬科技强有力的后盾支持。而对于国内而言,商业回报是技术发芽难以逾越的鸿沟。在众多投融资场景中,工程化与商业化是中国创企必然要面临的灵魂拷问。然而,在中国快速发展的历史中,正是工程化的强大能力带来了互联网的弯道超车。
文心一言自然有很多的不足,但作为为数不多AI全栈布局的百度推出的国内首个AI多模态大模型,“文心”研发周期也超过5年,在时间与资源上的耗费并不以少论,但尽管如此,其首席技术官王海峰也无奈表示,这类大语言模型还远未到发展完善的阶段,有赖于通过真实的用户反馈而逐步迭代。
而从百度本身而言,在广告收入面临瓶颈的当下,其亟需寻找新的增长飞轮,云服务+文心一言已然成为了其发展的核心重点。根据百度发布的截至2022年12月31日的第四季度及全年未经审计的财务报告,2022年,百度实现营收1236.75亿元,其中百度智能云全年总营收177亿,同比增长23%。李彦宏在财报信中表示,百度计划将多项主流业务与文心一言整合,包括搜索、智能云、Apollo自动驾驶、小度智能设备等。此外,百度将开放文心一言大模型,支持更多企业构建自己的模型和应用,赋能交通、能源、制造等实体经济领域,实现生产效率的大幅提升。
从另一方面来看,尽管诸多不足,但文心一言在文案创作、引擎解答与音频方向的亮点也给人们的工作生活提供了新型的效率工具。对此,市场包容性的态度是否能给予其更长的发展周期?
百度的文心一言,让子弹再飞一会。
陀螺财经的联系方式
商务合作|投稿:
小黄(微信号 18925291949)
芒果(微信号19925139144)
Ning(微信号 13631579042)