AI现状:中国-2025人工分析公司-2025
AI 现状 : 中国 人工分析 Q1 2025 我们的数据、见解和出版物基于我们对人工智能技术及其应用场景的全面 基准测试。这包括从语言模型API的小时级性能测试到我们众包平台上的 数百万次投票。 我们的公共网站,artificialanalysis.ai,广泛被人工智能创新领域的领先公 司引用。如欲讨论本报告、我们的出版物或服务,请通过contact@artificia lanalysis.ai 联系我们。 人工分析人工分析 是领先且独立的AI基准测试和洞察提供商。我们支持工程师和 公司了解AI能力,并就其AI战略做出关键决策。 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 2 3 3 1 主要趋势 按起源划分的前沿语言模型按起源划分的前沿语言模型 中国 AI 实验室逐渐赶上美国 AI 实验室 ; 来自中国实验室的模型 随着 DeepSeek 的 R1 模型的发布 , 现在正在接近 o1 级智能 OpenAI, o3 DeepSeek, R1 USA 中国 OpenAI, o1 OpenAI, o1 - preview OpenAI , GPT - 4 Turbo 人类, 克劳德 十四行诗(6 月 24 日) GPT-4o OpenAI , GPT - 4 DeepSeek, V3 阿里巴巴 , Qwen 2.5 指令 72B 阿里巴巴 , Qwen 2 指导 72B DeepSeek, V2 阿里巴巴 , Qwen 聊天 72B OpenAI , GPT - 3.5 Turbo 阿里巴巴 , Qwen 聊天 7B 4Q221Q232Q233Q232Q243Q244Q241Q252Q254Q231Q24 模型发布日期 1. 人工分析智能指数:涵盖一系列语言模型智能和推理评估数据集的平均值。目前包括MMLU、GPQA Diamond、MATH-500及Human。 发布日期基于该模型的首次公开发布。2. o3 智能指数通过放大测量的 o1 的智能指数估算得出。3. 基于公司声明和可比结果估算。 在可用的情况下 , 尚未通过人工分析进行独立基准测试 缩小差距 :缩小差距 : 2024年最后几个月见证了多家顶尖 中国AI实验室推出众多高性能模型。这导致了中 国AI实验室与美国AI实验室在智能水平上的差距 缩小。目前,一些中国模型已与美国顶级实验室 的模型竞争。 在前沿实验室附近打开模型 :在前沿实验室附近打开模型 : 由 DeepSeek 和 阿里巴巴领导的开放权重模型已经接近 o1 级智 能。 推理模型很快变得司空见惯 :推理模型很快变得司空见惯 : 推理模型(在回 答前进行“思考”的模型)最早由OpenAI在2024 年第三季度引入。几个月内,以DeepSeek为代 表的中国竞争对手已基本复制了o1的智能水平。 目前,多家中国AI实验室已经拥有前沿级别的推 理模型。 美国和中国 : 随着时间的推移 , 前沿语言模型情报美国和中国 : 随着时间的推移 , 前沿语言模型情报 1 1 索引人工分析智能 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 2 2 2 2 2 3 1 领先的美国前沿语言模型领先的美国前沿语言模型 主要趋势 自 2023 年初推出 OpenAI 的 GPT - 4 以来 , 美国领先的 AI 实验室已经争先恐后 赶上 OpenAI OpenAI 人类 Google Meta GPT-4 o1 - 预览 双子座 1.5 Pro 克劳德 3.5 (Sep ‘24) Gemini 2.0 闪存 十四行诗(6 月 24 日) GPT - 4 TurboGPT-4o克劳德 3.5 十四行诗(10 月 24 日) 双子座 1.5 Pro(24 年 5 月) 美洲驼 3.3 Gemini 1.0 Ultra 克劳德 3 405B 克劳德 2.1 Opus PaLM 2 - L GPT - 3.5 Turbo 克劳德 1 Llama 3 说明 70B Llama 2 聊天 70B 美洲驼 65B 4Q221Q232Q233Q232Q243Q244Q241Q252Q254Q231Q24 模型发布日期 1. 人工智能分析指数:涵盖了多种语言模型智能和推理评估数据集的平均值。目前包括MMLU、GPQA Diamond、MATH-500及Human。 发布日期基于该模型的第一次公开发布。2. 估计依据公司声明和可比结果(如有),尚未由Artificial Analysis独立基准测试。 3. o3 智力指数通过缩放测量的智力得分 o1 来估计。 GPT - 4 以外的智能火花 :GPT - 4 以外的智能火花 : 2024年最后几个月 见证了除了GPT-4之外的重大智能飞跃,由Ope nAI的o3引领。推理模型、数据质量以及新的强 化学习技术等主题已与预训练计算扩展一起成为 提升模型性能的主要杠杆。 Big Tech 关闭了前沿实验室 :Big Tech 关闭了前沿实验室 : Google和Meta 的模型正迅速逼近前沿模型,其中Gemini 2.0 Flash超过了Claude 3.5 Sonnet和GPT 4o的能 力。 竞争实验室赶上 OpenAI 的 GPT - 4 :竞争实验室赶上 OpenAI 的 GPT - 4 : OpenAI于2022年11月通过推出ChatGPT中的 GPT-3.5开启了语言模型的竞争;美国领先的 实验室已基本赶上OpenAI的前沿模型。 随着时间的推移 , 美国领先的 AI 实验室前沿语言模型智能随着时间的推移 , 美国领先的 AI 实验室前沿语言模型智能 1 1 o3 o1 70B 美洲驼 3.1 索引人工分析智能 1 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 2 2 2 领先的中国前沿语言模型领先的中国前沿语言模型 主要趋势 DeepSeek R1 DeepSeek 阿里巴巴 DeepSeek V3 Qwen 2.5 Max Qwen 2.5 指令 72B DeepSeek V2.5 Qwen 2 指示 72B DeepSeek V2 Qwen 聊天 72B DeepSeek V1 Qwen 聊天 7B 4Q221Q232Q233Q232Q243Q244Q241Q252Q254Q231Q24 模型发布日期模型发布日期 2025 年的潜在领导者 :2025 年的潜在领导者 : 2025年初,包括阿里云 、深视、明略、腾讯、智谱和通义等中国人工智能 实验室纷纷发布了前沿推理模型。发布的速度和频 率表明,中国人工智能实验室在2025年已不再是 落后者。 领先的开放式重量模型 :领先的开放式重量模型 : 中国的人工智能实验室 ,包括阿里云、深视和腾讯,发布了开放权重前 沿模型,这些模型在全球领先的模型中具有竞争 力。 迅速提高智力 :迅速提高智力 : 尽管中国的AI实验室较晚加入A I竞赛,但在2024年,它们在智能方面与前沿的美 国模型之间的差距显著缩小。当OpenAI推出o