美中 AI 大战持续燃烧,当川普选择了 OpenAI 做为战略伙伴时, DeepSeek 忽然异军突起空降全球,其中的核心竞争力「推理模型」依然是靠著辉达的 GPU 马力加速完成,迅速全面打脸所有认为辉达 GPU 已要被取代的新闻。
辉达官方部落格揭露 DeepSeek-R1 模型可让开发团队在保有客户隐私的前提上运行复杂难解的数学和程式码,辉达GeForce RTX 50 系列的 GPU 以每秒 3,352 兆次运算的马力加速运行 DeepSeek 推理模型 。
Table of Contents
Toggle新型态的推理模型让 AI 思考与反馈
Reasoning Models (推理模型) 是种新型态的大型语言模型,AI 会像人类一样花费时间「思考」并对错误做出「反馈」,所以被命名为「推理」。就像人类解决问题一样, AI 透过更多思考、理解与反馈解决问题。推理模型可了解使用者的深度需求,并允许 AI 对模型的思考过程提供回馈,进一步增强使用者体验,并可解锁 AI 代理工作流程,进而解决复杂的多步骤任务,例如市场分析研究、复杂的数学问题或程式码等等。
DeepSeek 推理模型可在辉达的 RTX AI PC 本地快速运行
DeepSeek-R1 系列精简模型为基于拥有 6,710 亿个参数的大型专家混合 (MoE) 模型。 MoE 模型由多个较小的 Expert Models 专家模型组成,用于解决复杂问题。 DeepSeek 模型进一步分配工作并将子任务分配给较小的专家群组。
DeepSeek 采用一种名为 Distillation (蒸馏)的技术,就像是制造威士忌一样,可将大部分的酒精经过蒸馏技术蒸发掉留下精萃,大型 DeepSeek 6,710 亿个参数模型中可蒸馏出六个较小的学生模型,参数范围从 15 亿到 700 亿个不等,由大的 DeepSeek-R1 6710 亿参数模型将推理能力「传授」给较小的 Llama 和 Qwen 学生模型,从而产生了功能强大但较小的推理模型,并在辉达 RTX AI PC 本地快速运行。
RTX 搭载 DeepSeek-R1 推理模型
辉达 GeForce RTX 50 GPU 采用第五代 Tensor Core 构建,基于相同的 Blackwell GPU 架构。 加速 DeepSeek 推理模型,可在 AI PC 电脑 上提供最高的推理效率。
NVIDIA 的 RTX AI 平台提供了广泛的 AI 工具、软体开发套件和模型选择。目前全球超过 1 亿台 NVIDIA RTX AI PC(包括搭载 GeForce RTX 50 系列 GPU 的 PC)能够使用 DeepSeek-R1 的功能。
杀手 GPU 没有网路连线也可使用
RTX GPU 即使没有网路连线,也可以在低迟缓的环境下运行,并可保护客户隐私,因为用户不用上传敏感的个资和搜寻纪录到 AI 服务系统。
风险提示
加密货币投资具有高度风险,其价格可能波动剧烈,您可能损失全部本金。请谨慎评估风险。
文章声明:以上内容(如有图片或视频亦包括在内)除非注明,否则均为谈天说币原创文章,转载或复制请以超链接形式并注明出处。