Mistral AI新模型对标GPT-4,不开源且与微软合作。

生成式 AI 领域,又有重量级产品出现。

周一晚间,Mistral AI 正式发布了「旗舰级」大模型 Mistral Large。与此前的一系列模型不同,这次 Mistral AI 发布的版本性能更强,体量更大,直接对标 OpenAI 的 GPT-4。而新模型的出现,也伴随着公司大方向的一次转型。

随着 Mistral Large 上线,Mistral AI 推出了名为 Le Chat 的聊天助手(对标 ChatGPT),任何人都可以试试效果。

此前,Mistral AI 提出的 Mistral-Medium 因为强大的性能、「意外」的开源而名噪一时,目前很多大模型初创企业都已不再对标 Llama 2,而是将 Mistral AI 旗下模型作为直接竞争对手。此次 Mistral Large 的出现,自然迅速吸引了众人关注。

人们首先关注的是性能,尽管在参数数量上不及 GPT-4,Mistral-Large 在关键性能方面却能与 GPT-4 媲美,可以说是当前业内的前三:

Mistral Large 的推理准确性优于 Claude 2、Gemini 1.0 Pro、GPT-3.5,支持 32k token 的上下文窗口,支持精确指令,自带函数调用能力。

人们也发现 Mistral Large 的推理速度超过了 GPT-4 和 Gemini Pro。然而优点到此为止。

模型除了增加体量,也需要有相应的数据。在模型发布后,人们发现它生成的文本有一种 ChatGPT 的既视感。

如果说为了能赶上业内最先进的 GPT-4,使用 AI 生成的内容进行训练或许并不是什么大问题。但 Mistral Large 的出现也给 AI 社区的人们带来了危机感:它并不是一个开源大模型。

这次发布的大模型有跑分,有 API 和应用,就是不像往常一样有 GitHub 或是下载链接。

有网友发现,新模型发布后,Mistral AI 官网还悄悄把所有有关开源社区义务的内容全部撤掉了:

难道以开源起家的 Mistral AI,成立才不足一年,这就要转向了吗?

Mistral Large 目前已经能在 Mistral AI 自有平台 La Plateforme 和微软 Azure 上使用。除了 Mistral Large 之外,Mistral AI 还发布了新模型 Mistral Small,针对延迟和成本进行了优化。Mistral Small 的性能优于 Mixtral 8x7B,并且推理延迟得到了降低,提供了一种开放权重模型和旗舰模型之间的中间方案。

但模型的定价也引发了一些质疑。比如 Mistral Small 的低延迟相比于 Mixtral 8x7B 的提升微乎其微,但输入贵了 2.8 倍,输出贵了 8.5 倍:

如果以商业大模型的标准来看待,Mistral Large 的定价和 GPT-4 相比并不具备优势,这又该如何吸引客户呢?

这位业内人士表示:「如果它的价格是 GPT-4 Turbo 的一半,我会更理解。」

新的 Mistral AI「大杯」模型,表现如何?

在官方博客中,Mistral AI 详细介绍了 Mistral Large 的功能和优势:

Mistral Large 在多个常用基准测试中取得了优异的成绩,使其成为世界上排名第二的可通过 API 普遍使用的模型(仅次于 GPT-4):

GPT-4、Mistral Large(预训练)、Claude 2、Gemini Pro 1.0、GPT 3.5 和 LLaMA 2 70B 在 MMLU 上的比较(测量大规模多任务语言理解)。

Mistral Large 的优势如下:

  • Mistral Large 的母语是流利的英语、法语、西班牙语、德语和意大利语,对语法和文化背景有细致入微的理解;
  • Mistral Large 的 32K Token 上下文窗口允许从大型文档中精确调用信息;
  • 其精确的指令跟随能力使开发人员能够设计自己的审核策略 ——Mistral AI 以此来设置 le Chat 的系统级审核;
  • Mistral Large 本身就能够进行函数调用。这与在 la Plateforme 上实施的受限输出模式一起,实现了大规模应用程序开发和技术堆栈现代化。

关于基准测试结果对比,可以参考以下:

推理和知识

Mistral Large 展现出了强大的推理能力。下图报告了预训练模型在标准基准上的性能:

与多个领先 LLM 模型在广泛常识、推理和知识基准上的表现对比,基准包括 MMLU(测量理解中的大规模多任务语言)、HellaSwag(10-shot)、Wino Grande(5-shot)、Arc Challenge(5-shot)、Arc Challenge(25-shot)、TriviaQA(5-shot)和 TruthfulQA。

多语言能力

Mistral Large 具有原生的多语言能力。它在法语、德语、西班牙语和意大利语的 HellaSwag、Arc Challenge 和 MMLU 基准测试中明显优于 LLaMA 2 70B。

Mistral Large、Mixtral 8x7B 和 LLaMA 2 70B 在 HellaSwag、Arc Challenge 和 MMLU 上法语、德语、西班牙语和意大利语的比较。

数学和编码

Mistral Large 在编码和数学任务中表现出顶尖的性能。下表报告了一系列流行基准的性能,以评估一些顶级 LLM 模型的编码和数学性能。

领先 LLM 模型在流行编码和数学基准上的性能:HumanEval pass@1、MBPP pass@1、Math maj@4、GSM8K maj@8(8-shot)和 GSM8K maj@1(5-shot)。

与微软合作,行 OpenAI 故事

在发布 Mistral Large 等模型的同时,Mistral AI 还宣布了一个消息:将与微软合作,在 Azure 上提供自己的模型。

此次合作使 Mistral AI 成为第二家在微软 Azure 云计算平台上提供商业语言模型的公司。这有助于 Mistral AI 将自己的模型推向市场,也让 Mistral AI 有机会使用 Azure 的尖端 AI 基础设施,以加速其下一代大型语言模型的开发和部署。

这家公司表示,「在 Mistral AI,我们的使命是让前沿人工智能无处不在。这就是我们今天宣布将自己的开放和商业模型引入 Azure 的原因。微软对我们模型的信任让我们前进了一步!」

这项为期多年的协议标志着微软正在其最大的赌注 OpenAI 之外,努力提供各种人工智能模型,为其 Azure 云服务吸引更多客户。去年 11 月,OpenAI 经历了 CEO Altman 被解雇(后又重返)的风波。而作为最大的股东,微软在消息公布前 5 到 10 分钟才从 OpenAI 那里得到消息。在这次动荡后,微软设法在控制 OpenAI 的非营利性董事会中获得了一个无投票权的观察员席位。这让他们对 OpenAI 的内部运作有了更多了解,但在重大决策上,微软依然没有投票权。

Mistral AI 对路透社表示,作为交易的一部分,微软将持有该公司少数股权,但未透露细节。

微软证实了对 Mistral AI 的投资,但表示不持有该公司的股权。这家科技巨头因向 OpenAI 提供巨额资金而受到欧洲和美国监管机构的审查。

根据公告,微软与 Mistral AI 的合作主要集中在三个核心领域:

  • 超算基础设施:微软将通过 Azure AI 超级计算基础设施支持 Mistral AI ,为 Mistral AI 旗舰模型的 AI 训练和推理工作负载提供一流的性能和规模;
  • 市场推广:微软和 Mistral AI 将通过 Azure AI Studio 和 Azure 机器学习模型目录中的模型即服务(MaaS)向客户提供 Mistral AI 的高级模型。除 OpenAI 模型外,模型目录还提供了多种开源和商业模型。
  • 人工智能研发:微软和 Mistral AI 将探索为特定客户训练特定目的模型的合作。

除了微软,MistralAI 还一直在与亚马逊和谷歌合作,分销自己的模型。一位发言人表示,该公司计划在未来几个月内将 Mistral Large 应用于其他云平台。

Mistral AI 成立于 2023 年 5 月,由来自 Meta Platforms 和 Alphabet 的几位前研究人员 ——Arthur Mensch(现任 CEO)、Guillaume Lample 和 Timothee Lacroix 共同创立。成立不到四周,Mistral AI 就获得了 1.13 亿美元 的种子轮融资,估值约为 2.6 亿美元。成立半年后,他们在 A 轮融资中筹集了 4.15 亿美元,估值飙升至 20 亿美元,涨了七倍多。而此时,他们仅有 22 名员工。

总体来说,Mistral AI 的模型现在有以下几种获取方式:

  • Mistral AI 自己的 API:该接入点安全地托管在 Mistral AI 位于欧洲的基础设施上,使开发人员能够在各种型号的模型上创建应用和服务。
  • Azure:Mistral Large 可通过 Azure AI Studio 和 Azure Machine Learning 获取,其用户体验与 Mistral AI 的 API 一致。
  • 安全部署:Mistral AI 的部分模型可以部署在用户自己的环境中,用于对安全性最敏感的用例。

感兴趣的读者可以前去尝试。

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/225326.html<

(0)
运维的头像运维
上一篇2025-04-16 20:34
下一篇 2025-04-16 20:36

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注