AI现状:中国-2025人工分析公司-2025
AI 现状 中国 人工分析 Q1 2025 我们的数据、见解和出版物基于我们对人工智能技术及其应用场景的全面 基准测试。这包括从语言模型API的小时级性能测试到我们众包平台上的 数百万次投票。 我们的公共网站,artificialanalysis.ai,广泛被人工智能创新领域的领先公 司引用。如欲讨论本报告、我们的出版物或服务,请通过contactartificia lanalysis.ai 联系我们。 人工分析人工分析 是领先且独立的AI基准测试和洞察提供商。我们支持工程师和 公司了解AI能力,并就其AI战略做出关键决策。 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 2 3 3 1 主要趋势 按起源划分的前沿语言模型按起源划分的前沿语言模型 中国 AI 实验室逐渐赶上美国 AI 实验室 ; 来自中国实验室的模型 随着 DeepSeek 的 R1 模型的发布 , 现在正在接近 o1 级智能 OpenAI, o3 DeepSeek, R1 USA 中国 OpenAI, o1 OpenAI, o1 - preview OpenAI , GPT - 4 Turbo 人类, 克劳德 十四行诗6 月 24 日 GPT-4o OpenAI , GPT - 4 DeepSeek, V3 阿里巴巴 , Qwen 2.5 指令 72B 阿里巴巴 , Qwen 2 指导 72B DeepSeek, V2 阿里巴巴 , Qwen 聊天 72B OpenAI , GPT - 3.5 Turbo 阿里巴巴 , Qwen 聊天 7B 4Q221Q232Q233Q232Q243Q244Q241Q252Q254Q231Q24 模型发布日期 1. 人工分析智能指数涵盖一系列语言模型智能和推理评估数据集的平均值。目前包括MMLU、GPQA Diamond、MATH-500及Human。 发布日期基于该模型的首次公开发布。2. o3 智能指数通过放大测量的 o1 的智能指数估算得出。3. 基于公司声明和可比结果估算。 在可用的情况下 , 尚未通过人工分析进行独立基准测试 缩小差距 缩小差距 2024年最后几个月见证了多家顶尖 中国AI实验室推出众多高性能模型。这导致了中 国AI实验室与美国AI实验室在智能水平上的差距 缩小。目前,一些中国模型已与美国顶级实验室 的模型竞争。 在前沿实验室附近打开模型 在前沿实验室附近打开模型 由 DeepSeek 和 阿里巴巴领导的开放权重模型已经接近 o1 级智 能。 推理模型很快变得司空见惯 推理模型很快变得司空见惯 推理模型(在回 答前进行“思考”的模型)最早由OpenAI在2024 年第三季度引入。几个月内,以DeepSeek为代 表的中国竞争对手已基本复制了o1的智能水平。 目前,多家中国AI实验室已经拥有前沿级别的推 理模型。 美国和中国 随着时间的推移 , 前沿语言模型情报美国和中国 随着时间的推移 , 前沿语言模型情报 1 1 索引人工分析智能 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 2 2 2 2 2 3 1 领先的美国前沿语言模型领先的美国前沿语言模型 主要趋势 自 2023 年初推出 OpenAI 的 GPT - 4 以来 , 美国领先的 AI 实验室已经争先恐后 赶上 OpenAI OpenAI 人类 Google Meta GPT-4 o1 - 预览 双子座 1.5 Pro 克劳德 3.5 Sep ‘24 Gemini 2.0 闪存 十四行诗6 月 24 日 GPT - 4 TurboGPT-4o克劳德 3.5 十四行诗10 月 24 日 双子座 1.5 Pro24 年 5 月 美洲驼 3.3 Gemini 1.0 Ultra 克劳德 3 405B 克劳德 2.1 Opus PaLM 2 - L GPT - 3.5 Turbo 克劳德 1 Llama 3 说明 70B Llama 2 聊天 70B 美洲驼 65B 4Q221Q232Q233Q232Q243Q244Q241Q252Q254Q231Q24 模型发布日期 1. 人工智能分析指数涵盖了多种语言模型智能和推理评估数据集的平均值。目前包括MMLU、GPQA Diamond、MATH-500及Human。 发布日期基于该模型的第一次公开发布。2. 估计依据公司声明和可比结果(如有),尚未由Artificial Analysis独立基准测试。 3. o3 智力指数通过缩放测量的智力得分 o1 来估计。 GPT - 4 以外的智能火花 GPT - 4 以外的智能火花 2024年最后几个月 见证了除了GPT-4之外的重大智能飞跃,由Ope nAI的o3引领。推理模型、数据质量以及新的强 化学习技术等主题已与预训练计算扩展一起成为 提升模型性能的主要杠杆。 Big Tech 关闭了前沿实验室 Big Tech 关闭了前沿实验室 Google和Meta 的模型正迅速逼近前沿模型,其中Gemini 2.0 Flash超过了Claude 3.5 Sonnet和GPT 4o的能 力。 竞争实验室赶上 OpenAI 的 GPT - 4 竞争实验室赶上 OpenAI 的 GPT - 4 OpenAI于2022年11月通过推出ChatGPT中的 GPT-3.5开启了语言模型的竞争;美国领先的 实验室已基本赶上OpenAI的前沿模型。 随着时间的推移 , 美国领先的 AI 实验室前沿语言模型智能随着时间的推移 , 美国领先的 AI 实验室前沿语言模型智能 1 1 o3 o1 70B 美洲驼 3.1 索引人工分析智能 1 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 2 2 2 领先的中国前沿语言模型领先的中国前沿语言模型 主要趋势 DeepSeek R1 DeepSeek 阿里巴巴 DeepSeek V3 Qwen 2.5 Max Qwen 2.5 指令 72B DeepSeek V2.5 Qwen 2 指示 72B DeepSeek V2 Qwen 聊天 72B DeepSeek V1 Qwen 聊天 7B 4Q221Q232Q233Q232Q243Q244Q241Q252Q254Q231Q24 模型发布日期模型发布日期 2025 年的潜在领导者 2025 年的潜在领导者 2025年初,包括阿里云 、深视、明略、腾讯、智谱和通义等中国人工智能 实验室纷纷发布了前沿推理模型。发布的速度和频 率表明,中国人工智能实验室在2025年已不再是 落后者。 领先的开放式重量模型 领先的开放式重量模型 中国的人工智能实验室 ,包括阿里云、深视和腾讯,发布了开放权重前 沿模型,这些模型在全球领先的模型中具有竞争 力。 迅速提高智力 迅速提高智力 尽管中国的AI实验室较晚加入A I竞赛,但在2024年,它们在智能方面与前沿的美 国模型之间的差距显著缩小。当OpenAI推出o