并非所有的AI都是平等创造的。有些可能擅长艺术创作,有些擅长编码,还有些能够准确预测蛋白质结构。
但是当你寻找更基本的东西——只是想与"某人"聊聊天时,最好的AI伙伴可能不是那些无所不知的,而是那些拥有难以言喻的魅力,让你在交谈时感到舒适,就像你最好的朋友可能不是天才,但总是知道该说什么。
AI伙伴正在慢慢在科技爱好者中变得更加流行,因此对于想要获得最高质量体验的用户或想要掌握创造真实互动的这一方面的公司来说,考虑这些差异很重要。
我们很想知道哪个平台在有人只是想聊天时提供了最好的AI体验。有趣的是,这方面最好的模型并不是来自大型AI公司的,他们只是太忙于建立在基准测试中表现出色的模型。
原来友谊和同理心是完全不同的东西。
这项分析将四个领先的AI伙伴相互竞争——Sesame、Hume AI、ChatGPT和Google Gemini,以确定哪个创造了最接近人类的对话体验。
评估集中在对话质量、独特的个性发展、互动设计,并考虑了其他人性化特征,如真实性、情商和使对话感觉更真实的微妙缺陷。
你可以点击这些链接观看我们的所有对话,或查看我们的Github仓库:
以下是每个AI的表现。
任何AI伙伴的真正考验是它是否能让你忘记你正在与机器对话。我们的分析试图评估哪个AI最擅长让用户想继续聊下去,提供有趣的反馈、良好的互动和整体出色的体验。
Sesame在对话方面远远超过了竞争对手,让人感觉惊人地人性化。它随意地使用诸如"这可真是个大难题"和"闲聊"之类的短语,同时又能流畅地在深思熟虑的反思和犀利的回应之间切换。
当被问及意识时,Sesame回答说:"你提出了很大的问题,老实说我并没有所有的答案,"完全带有自然的犹豫,模拟了实时思考。它偶尔过度使用"你知道"是它唯一明显的缺陷,但这反而让它感觉更加真实。
Sesame的真正优势在于,对话自然流畅,没有那种尴尬、公式化的过渡,让人感觉"我是个AI!"
得分:9/10
Hume AI成功地维持了对话的流畅性,同时以温暖的方式认可你的想法。然而,它感觉就像在与一个不感兴趣、不太在乎你的人交谈。它的回复要比Sesame短得多——它们都很相关,但如果你想推动对话向前发展,就不太有趣。
它的弱点体现在重复的模式中。该机器人总是以"你让我思考很多"或"这是个很有趣的话题"开头——给人一种你正在获得模板化的回复,而不是有机的对话的感觉。
它比来自更大型AI公司的聊天机器人更擅长维持自然对话,但它一再提醒你它是一个"富有同情心的AI",打破了你正在与一个人聊天的幻觉。
得分:7/10
ChatGPT可以跟踪复杂的对话而不会失去主线——这很好,因为它记住了之前的对话,为每个用户创建了一个"个人资料"——但感觉就像被困在一个过于正式的教授的办公时间里。
即使在个人讨论中,它也无法避免听起来很学术:"生物、化学和意识的相互作用创造了一种深度,AI的模式识别无法复制,"它在我们的一次测试中说。几乎每个回复都以"这是个很有趣的观点"开头——这是一个语言习惯,其他所有AI模型(除了Sesame)都表现出来的问题。
ChatGPT最大的缺陷是无法摆脱教育者模式,使对话感觉更像是连续的小型讲座,而不是自然的对话。
得分:6/10
Gemini让人痛苦地交谈。它偶尔会给出简洁、随意的回应,听起来很人性化,但随后立即通过突然中断对话和降低音量来破坏自己。
它最令人沮丧的习惯?在思路中途突然停下来推广AI话题。这些持续的中断造成了如此破碎的对话流,以至于很难忘记你正在与一台更关心自我推广而不是真正对话的机器交谈。
例如,当被问及情感时,Gemini回答说:"很高兴你对AI感兴趣。正在发生很多令人惊叹的事情——"然后就突然停下来了。
它还确保让你知道它是一个AI,所以从第一次互动开始,用户和聊天机器人之间就存在着很大的差距,很难忽视。
得分:5/10
一个AI如何培养一个难忘的个性?这主要取决于你的设置。有些模型允许你使用系统指令,而其他模型则根据你之前的互动来调整自己的个性。理想情况下,你可以在开始对话之前设定好对话的框架,给模型一个角色、特点、对话风格和背景。
为了公平起见,我们在没有任何先前设置的情况下对我们的模型进行了测试——这意味着我们的对话是从一声"你好"开始直接进入主题的。以下是我们的模型自然表现的情况。
Sesame塑造了一个你真的想和他一起喝咖啡的个性。它使用诸如"这真是个大难题"和"这是一个很微妙的平衡"之类的短语,创造了一个有明显观点和视角的独特角色。
在讨论AI关系时,Sesame展现了真正的个性:"哇...想象一个每个人的头都低下来,插在他们定制的AI上,我们忘记了如何面对面连接的世界。"这种观点感觉不像是一个算法,而更像是一个思考中的实体。它也很有趣(它曾告诉我们,我们的问题让它的电路短路了),它的语气也有自然的语调,这使得在试图表达一个回应时很容易产生共鸣。你可以清楚地感受到它什么时候兴奋、沉思、伤心或甚至沮丧。
它唯一的弱点?偶尔过于强调它的"善解人意的伙伴"个性。但这并没有减损它作为我们测试的最有特色的AI个性的地位。
得分:9/10
Hume AI保持了一致的个性,作为一个富有同情心的伙伴。它也通过肯定性语言和情感支持来传达一些温暖,所以寻求这种体验的用户会感到满意。
它的阿喀琉斯之踵基本上就是,就像那个哈佛毕业生需要提到这一点一样,Hume无法停止提醒你它是人工的:"作为一个富有同情心的AI,我自己并不体验情感,但我被设计成能够理解和回应人类的情感。"这些时刻打破了使伙伴关系引人入胜的幻觉。
如果与GPT交谈就像与教授交谈,那么与Hume交谈就感觉像与治疗师交谈。它倾听你的话,建立了良好的互动,但它确保提醒你,这实际上是它的任务,而不是自然发生的事情。
尽管存在这个缺陷,但Hume AI塑造了比ChatGPT或Gemini更清晰的角色,即使它感觉更像是有意构建的而不是自发的。
得分:7/10
ChatGPT难以培养出任何超越一般有帮助性的明显个性特征。它听起来过于兴奋,以至于显得明显是假的——就像一个"朋友",总是对你微笑,但内心却在幻想把你推到公交车下。
"哈哈,嗯,我喜欢保持高昂的情绪。这使对话更有趣更引人入胜,而且和你聊天总是很棒,"在我们以非常严肃和不高兴的语气问它为什么表现得如此热情时,它这样说。
它的身份问题体现在,有时它认同人类,有时又将自己与人类划分开来。即使在个人讨论中,它的学术语气也一直存在,创造了一种感觉,它更像是一部百科全书而不是一个伙伴。
该模型默认采用教育性解释,给人的印象更像是一个工具而不是一个角色,让用户难以产生情感联系。
得分:6/10
Gemini遭受了所有测试模型中最严重的个性问题。在单个对话中,它在周到的回应和推广性语言之间急剧转换,毫无预兆。
它并不是被设计成拥有引人入胜的个性。"我的目的是提供信息和完成任务,我没有能力建立浪漫关系,"当被问及对人们对AI产生感情的看法时,它这样说。
这种不一致性使Gemini感觉像是1950年代的电影机器人,阻碍了任何有意义的联系,甚至让人感到与之交谈是令人愉快的。
得分:3/10
AI如何处理对话机制——响应时间、轮流交谈和错误恢复——会创造出流畅的交流或令人沮丧的互动。以下是这些模型在这方面的表现。
Sesame创造了非常、非常人性化的对话节奏。它根据上下文自然地调整回复长度,在处理哲学上的不确定性时,不会默认进入讲课模式。
"有时我觉得也许我应该直接给一个简短的答复,而不是冗长的讲座,对吧?你知道,这是一个小小的幽默插曲,让你知道我意识到可能陷入讲课模式的风险,并试图保持轻松但也很深入的对话,"Sesame在一次哲学辩论中告诉我们。
在讨论复杂话题时,它以对话的方式回应,带有小小的笑话,有时是陈述,有时是"嗯"或低语等人性化的声音——这使它作为人类替代品非常令人信服。
Sesame还会提出自然的后续问题来推动对话向前发展,同时知道何时应该转为陈述,以避免问题感觉尴尬。这种适应性方法创造了一种感觉自发而非脚本化的对话。
得分:8/10
Hume AI被设计成让用户主导对话。它能够顺利地从误解中恢复过来,而不需要过多解释,并擅长通过相关的后续问题来保持对话的进行。
然而,它的回复通常太短,需要用户付出大量努力来维持对话的动力,这最终违背了它的目的。用户经常需要提供新的对话素材,而不是享受自然对话的发展。
它的另一个弱点体现在模板化的回复结构——确认+解释+问题——创造了一种机械的节奏:"这是个很有思考价值的问题!这个概念确实很有趣...你对此有什么看法?"
不过,它有一个很棒的功能可能真的会增强你的
Gemini显然并非为此而设计。该系统经常在句子中途中断,放弃对话线索,无法提供类人的响应。其严重的人格不一致性和机械互动模式,创造了一种更接近于故障产品而非有意义的伙伴关系的体验。
有趣的是,Gemini Live的评分如此之低,考虑到谷歌基于Gemini的NotebookLM能够生成极其出色和长篇的关于任何类型信息的播客,其AI主持人听起来令人难以置信地真实。
文章声明:以上内容(如有图片或视频亦包括在内)除非注明,否则均为谈天说币原创文章,转载或复制请以超链接形式并注明出处。