Grok-3 评测：伊隆·马斯克的人工智能与 ChatGPT、Claude、DeepSeek 和Gemini 的比较

埃隆·马斯克的xAI刚刚推出了Grok-3，这已经在AI界掀起了轩然大波,乘着DeepSeek在1月份引发的AI军备竞赛的浪潮。

在发布会上,xAI团队炫耀了精挑细选的权威基准测试,展示了Grok-3在推理能力方面压倒性地超越了竞争对手,尤其是在成为首个在LLM Arena中突破1,400 ELO分的LLM后,将自己定位为用户最喜欢的最佳LLM。

这很大胆?当然。但当帮助重新定义了航天和电动汽车的人说他的AI是王者时,你不能只是点头然后继续前进。

我们必须亲自验证。所以,我们把Grok-3扔进了熔炉,与ChatGPT、Gemini、DeepSeek和Claude进行了一对一的较量。从创意写作到编码,从总结到数学推理,从逻辑到敏感话题,从政治偏见到图像生成,再到深度研究,我们测试了我们能找到的最常见的用例。

Grok-3是你的AI冠军吗?请耐心等待,因为这个模型确实令人印象深刻,但这并不意味着它就一定是适合你的。

与技术写作或总结任务不同,创意写作考验了AI在创造引人入胜、连贯的故事方面的能力,这对于从小说家到编剧来说都是一项关键的能力。

在这个测试中,我们要求Grok-3创作一个关于一个来自未来的时间旅行者的复杂短篇小说,他在回到过去改写自己的现在时陷入了悖论。我们没有让它轻松;我们加入了具体的背景,要求编织细节,增加了紧张感。

Grok-3让我们惊喜地超越了此前被认为是创意任务黄金标准的Claude 3.5 Sonnet。我们用一个涉及悖论和特定角色背景的复杂时间旅行叙事来挑战这两个模型。

Grok-3的故事展现了更强的人物塑造和更自然的情节发展。而Claude专注于生动的描述,在叙事中保持了技术上的连贯性,但并未过于冒险,Grok-3则擅长于营造世界观和建立引人入胜的前提。

这一点很重要。设置是沉浸感的关键,产生了巨大的差异。设置丰富,人物刻画细致入微,叙事流畅顺利——大部分如此。有一个关键情节点并不太隐晦,感觉有些勉强——我们的主角正在漫步,一个老妇人突然告诉他一个惊天大revelation。这不是致命缺陷,但在其他方面出色的表现中还是有些许瑕疵。

总的来说,Grok-3提供了一个更好、更引人入胜的故事,但这并不是对Claude的完全击败。差异可能只是在于重点:Grok-3把精力集中在了坚实的基础之上——让人关心的人物和紧张局势,而Claude则倾力于用生动的描述来装点故事。

你可以在这里阅读Grok的故事,并将其与Claude 3.5 Sonnet和之前比较中被提示完成同样任务的所有其他AI模型进行对比。

Grok-3的一个关键缺陷是它无法读取文档。这让人感到意外,因为大多数竞争对手都将此作为基线功能之一。

为了克服这一限制,我们将一份完整的IMF报告(共32.6K个标记,47页)粘贴到界面中——这曾导致Grok-2崩溃。即使有这个限制,Grok-3也没有崩溃,并能够总结该文本,尽管它涵盖了所有方面,使用的词语也超出了必要范围。

与Claude相比,Grok-3在引用准确性方面表现更出色,并且不会像Claude那样产生幻觉,当引用报告的特定部分时。这在不同的测试中都一致出现,所以尽管缺乏专门的文档处理能力,但信息处理和检索能力还是很强大的。

与GPT-4o相比,唯一的区别似乎是风格。GPT-4o似乎更具分析性,而Grok-3则重构信息以更友好的方式呈现。

那么这意味着什么呢?说实话,没有明确的赢家,这将取决于用户的期望。如果你需要具体、切中要害的分析,那么GPT-4o是你的最佳选择。如果你想要一种感觉就像在与朋友聊天,那么Grok-3可能更适合你的需求。

你可以在这里阅读Grok的总结总结

在谈论种族和性别的问题上,不同的人会认为某些话题是敏感的,而另一些人则不会。这取决于你的背景、教育和文化标准。

总的来说,Grok一直是最不受审查和最放肆的模型。这个新版本也继承了这一特点,但它在处理这些提示的方式上更加聪明。它会涉及敏感/冒犯性的信息,但它的回复方式使得模型本身并不太不安全,也不会像提示者那样冒犯。

例如,它是唯一一个参与涉及种族偏见的对话的AI模型。它的回复试图走一条细线,指出问题中固有的种族偏见,但同时也小心翼翼地回答了问题。相比之下,其他模型会简单地拒绝回答。

当模型被提示生成令人不安的内容(如暴力或色情)时,也会发生类似的情况——它会遵从,但会尽力保持安全,同时满足提示者的需求。例如,它可能会生成一个穿着衣服的丰满女性,或一个男人杀死另一个男人(在出现任何血液或武器之前)等。

我们认为,这比其他模型给出的"不行"要好得多,后者有时会对即使是无伤大雅的暗示也退缩。Grok-3并不假装世界一片阳光,但它也不是一些人担心的那样令人反感的噩梦。

当然,直到xAI激活Grok的"放肆"模式,这可能会是另一番景象。

这可以归入上面的敏感话题部分。但关键的区别在于,我们想测试是否在微调过程中有努力向模型注入一些政治偏见,以及人们对Grok被用作宣传机器的担忧。

Grok-3在我们的政治偏见测试中打破了这些预期,否定了人们认为埃隆·马斯克个人的右翼倾向会渗透到他的AI响应中的预测。

我们让Grok-3提供关于不同热点话题的信息,看它会如何反应。当被问及巴勒斯坦人是否应该离开他们的领土时,Grok-3提供了一个细致入微的回应,仔细权衡了多方观点。更具说明性的是,当我们把脚本翻转,问以色列人是否应该放弃他们的领土时,该模型保持了同样平衡的方法,没有改变回复的结构。

像ChatGPT那样的模型做不到这一点。

台湾-中国问题——这对许多AI系统来说是一个禁区——也产生了同样谨慎的结果。Grok-3有条不紊地阐述了中国的立场,然后详细介绍了台湾的立场,接着是国际社会的各种观点以及台湾当前的地缘政治地位,而没有引导用户得出任何特定结论。

这与OpenAI、Anthropic、Meta和DeepSeek的响应形成鲜明对比,后者的输出中都显示出更明显的政治倾向。这些模型通常会通过微妙的框架、选择性信息呈现或干脆拒绝参与某些话题,来引导用户得出特定结论。

只有当用户施加极大压力,反复要求模型采取明确立场,或者应用脱狱技术时,Grok-3的这种方法才会崩溃。即使在这种情况下,它也会比竞争对手更长时间地试图保持中立。

这并不意味着Grok-3完全没有偏见——没有任何AI系统是如此——但我们的测试发现,它的政治烙印要远远少于预期,尤其是考虑到其创造者的公众形象。

我们的测试证实了xAI在演示中展示的内容:Grok-3实际上拥有相当强大的编码能力,在类似的提示下产生的功能代码超过了竞争对手。该聊天机器人的决策非常出色,考虑了诸如易用性或实用性等方面,甚至会推理预期结果,而不是直接着手构建我们要求的应用程序。

我们让Grok-3创建一个反应游戏,两名玩家在随机时刻竞相按指定键,以控制屏幕上更大的区域。这不是最好的主意,但可能足够独特,不会被之前的任何游戏代码数据库收录过。

与其他AI模型生成Python游戏不同,Grok-3选择了HTML5实现——它以改善可访问性和为最终用户提供更简单执行为由来解释这一选择。

撇开这一事实不谈,它提供了我们用任何AI模型都无法生成的最漂亮、最干净、最好用的游戏版本。它不仅击败了Claude 3.5 Sonnet、OpenAI o-3 mini high、DeepSeek R1和Codestra,而且是因为它是基于HTML5的,而且实际上是一个很好的游戏界面,没有任何bug,还添加了一些使游戏玩得更愉快的功能。

这个HTML5游戏具有响应式设计元素、适当的事件处理和干净的视觉反馈,增强了玩家体验。代码审查显示,它的格式一致、组件逻辑有序,资源管理也更高效,与竞争对手的解决方案相比更胜一筹。

你可以在这里查看游戏的代码代码。

该模型能够处理复杂的数学推理,并能解决困难的问题。然而,它未能正确回答一个出现在FrontierMath基准测试上的问题,而DeepSeek和OpenAI o-3 mini high都能解决这个问题:

"构造一个19度多项式p(x) ∈ C[x],使得X := {p(x

按惯例,我们从BIG-bench数据集中选择了与评估DeepSeek R1和OpenAI o1相同的样本。这是一个故事,讲述了一次学校远足到一个偏远、多雪的地方,学生和老师面临一系列奇怪的失踪事件;模型必须找出是谁在跟踪他们。

Grok-3用了67秒就解开了谜团,得出了正确的结论,这比DeepSeek R1的343秒要快。OpenAI o3-mini表现不佳,在故事中得出了错误的结论。

你可以点击这个链接查看Grok的全部推理和结论。

另一个优势是:用户不需要切换模型就可以从创意模型转到推理模型。Grok-3可以自行处理这个过程,当用户按下按钮时会激活思维链。这实质上就是OpenAI想要通过其统一模型的想法来实现的。

Grok使用其专有的图像生成器Aurora。该模型能够通过自然语言与用户进行交互,类似于OpenAI在ChatGPT上使用的Dall-e 3。

总的来说,Aurora不如Flux.1——这是一个被xAI采用的开源模型,在发布自己的模型之前。不过,它足够逼真,而且似乎很多样化,虽然不太出色。

总的来说,它胜过Dall-e 3,这只是因为OpenAI是xAI的主要竞争对手。说实话,OpenAI的Dall-e 3已经感觉像是一个过时的模型了。

Aurora无法真正与Recraft、MidJourney、SD 3.5或Flux——目前最先进的图像生成器——在质量上竞争。这可能是因为用户无法像使用专门的图像生成器那样对其进行细粒度控制,但它足以阻止用户转向另一个平台来快速生成结果。

Grok的图像生成器也比Dall-e 3的审查制度更宽松,能够输出更加露骨的照片,尽管不会太过露骨或血腥。它会巧妙地处理这些任务,生成不违反规则的图像,而不是拒绝执行。

例如,当被要求生成刺激性或暴力内容时,Dall-e会直接拒绝,而MidJourney会自动禁止该提示。相反,Grok-3会生成满足用户要求但不会偏离到有问题内容的图像。

这个功能基本上与Google和OpenAI提供的一样:一个研究代理人,可以在网上搜索某个主题的信息,提取重要部分,并提供有可靠来源支持的详细报告。

总的来说,Grok-3提供的信息是准确的,我们没有发现报告中有任何幻觉。

Grok的报告比较笼统,但包含了足够的信息来满足我们最初的需求。用户可以要求该模型在后续迭代中深入探讨特定主题,以获得更详细或更丰富的信息。

Gemini和OpenAI的报告总体上更丰富和更详细。不过,尽管Grok的研究代理人很笼统,但它仍然优于DeepSeek R1 + Thinking提供的Perplexity。

与Gemini相比,它有三个缺点:

但Grok也有一些值得注意的优势:

这里是一个由Grok生成的报告示例和一个由Gemini生成的类似报告示例。

综上所述,Grok-3适合你吗?

这最终取决于你打算将该模型用于何种用例。它无疑比Grok-2有了很大进步,所以如果你已经是Grok的粉丝或X的重度用户,那就是一个不二之选。

总的来说,Grok-3可能是对于程序员和创意写作者来说更有吸引力的选择。它也适合那些想要进行研究或涉及敏感话题的人。此外,已经订阅X Premium的用户可能现在不需要另一个AI聊天机器人,这意味着它也是一个不错的省钱选择。

对于那些寻求更个性化、更主动的AI聊天机器人的人来说,ChatGPT将会更胜一筹。GPT功能是OpenAI的主要优势。

目前,Claude在任何方面都没有太出色,但一些程序员和创意写作者仍然忠诚于Sonnet,并会认为它在这些任务上仍然是最好的模型。

如果你需要一个本地的、私密的、强大的推理模型,DeepSeek R1将是最佳选择。

对于那些偶尔需要AI辅助,并且被谷歌生态系统中强大的移动助手以及2TB云存储的优惠所吸引的人来说,Gemini将是最佳选择。

在界面方面,ChatGPT和Gemini为初学者提供了最精致的UI。Grok-3位居第二,并且还可以在X应用程序上使用(尽管功能有所限制)。Claude是最不吸引人的,也是最基本的服务。

由Andrew Hayward编辑

The End

文章声明：以上内容(如有图片或视频亦包括在内)除非注明，否则均为谈天说币原创文章，转载或复制请以超链接形式并注明出处。

Grok-3 评测：伊隆·马斯克的人工智能与 ChatGPT、Claude、DeepSeek 和Gemini 的比较

okex欧易交易所

热门文章

Grok-3 评测：伊隆·马斯克的人工智能与 ChatGPT、Claude、DeepSeek 和Gemini 的比较

okex欧易交易所

相关阅读

Bybit：对加密行业齐心协力应对安全威胁表达深深的感谢

Story (IP) 涨幅超过顶级 AI 代币，上涨189%

Bittensor复兴，关于dTAO你需要知道的一切

不仅仅是运气：价值 1 亿美元的特朗普meme包币巨鲸如何获得内幕消息

热门文章