//
在中文文书方面,通义千问的能力与 GPT-3.5 已不相上下,而在代码写作方面,通义千问则是大幅度的领先于文心一言。
1
通义千问的诞生背景
2
通义千问能力测试
文书能力测试
图四 文心一言的回答(▲点击查看大图)
面对基础的语言文字问题,四款AI工具都可以看似按照需求的完成任务,其中通义千问的语法和措辞最为接近国人的口吻。
再细看一下,文心一言给出的回答为:“我已经请假了两天,并且目前感觉已经有所好转。但是,我不想因为自己的身体问题而影响到工作,因此我希望能够请一周的病假。”
在我们并未给出任何多余的 prompt 的情况下给自己增加了情景,这也可以算LLM的“幻觉”通病。
再来看下一个问题:请续写《红楼梦》中林黛玉倒拔垂杨柳的故事。
文心一言(▲点击查看大图)
文心一言(▲点击查看大图)
代码能力测评
我们再来看到代码能力,在这一个环节,由于问题比较简单GPT系列都可以出色完成,因此不加入GPT系列参与对比。
文心一言(▲点击查看大图)
文心一言(▲点击查看大图)
文心一言(▲点击查看大图)
3
测评总结
结论1:通义千问是国内最接近ChatGPT水平的本土化LLM。
经过上述测试,我们发现就目前而言,“通义千问”实际上是国内最接近ChatGPT(GPT-3.5)水平的本土化LLM。
尽管百度率先推出了文心一言试图抢占高点,但模型水平一般,回答水平只能与Meta公司前段时间泄露的LLaMA 13B未针对对话调参前的水平相媲美。
而通义千问和文心一言对比起GPT-4时,即使忽略都欠缺的多模态能力,在文字方面上来看二者均和GPT-4有较大差距。
结论2:通义千问在中文写作和代码编写方面领先于文心一言。
LLM模型常见的“幻觉”(即回答错误事实)现象在文心一言上表现得尤为明显。当前在中文写作方面,通义千问的能力与GPT-3.5已不相伯仲,而在代码编写方面,通义千问则大幅领先于文心一言。
结论3:百度拥有庞大的语料库优势,但文心一言表现不尽如人意。
巨型语料库是LLM训练中不可或缺的部分,同时还需避免受到“有毒”语料的影响。
从这个角度来看,拥有庞大语料库的百度天生具备优势,可以利用旗下的问答、百科和抓取的网页信息作为语料。然而,目前文心一言的表现仍然不尽如人意。
结论4:通义千问在某些场景下的中文文本能力超过了ChatGPT。
相较之下,阿里经过一个月的沉淀后推出的产品在多个维度上击败了文心一言。
在某些场景下,得益于本土化语料资源优势,通义千问的中文文本能力甚至部分超过了ChatGPT。一些常见的文书工作在进行好事实性核查之后可以交由通义千问处理。
结论5:GPT-4具备强大的多模态能力,而国产大模型仍然不具备多模态能力。
再来看多模态场景。从GPT-4的论文中,我们得知其已具备强大的多模态能力,包括图像的输入和输出。
GPT-4能够理解图像含义并根据文字/图像指令完成任务,展示出Transformer的实力。
百度文心一言的“多模态”能力更像是虚假的多模态,其图像能力来自于另一个大模型“文心一格”。而通义千问则是明确表示没有多模态能力。
结论6:AIGC成为了未来发展的模式,各互联网巨头都在争夺战场,新兴职业如Promopter也在兴起。
当前的所有趋势就是“面向GPT”,AIGC俨然成为了未来发展的模样。
不同于元宇宙等项目,AIGC是可以切实提升人类生产效率的工具,互联网大厂都看到了这个赛道的未来,不约而同的来到这个战场上激烈厮杀,基于AI的Promopter这种职业也正在兴起。面向GPT编程,面向GPT写作,面向GPT绘画,面向______。这个空,就是未来。
文章声明:以上内容(如有图片或视频亦包括在内)除非注明,否则均为谈天说币原创文章,转载或复制请以超链接形式并注明出处。