SuperCLUE2025年年度基准测评Qwen3-Max-Thinking六大任务得
2026-02-04 14:57:38
52
相关数据
行业数据1
Google Performance Max Share of Impressions by Placement (Excluding Google Search) – Average Retailer, 2024–2026
2026-04-22 08:30:00
7
原图定位
行业数据1
Google US Shopping Ads YoY Growth: Performance Max vs Standard Campaigns (2024–2026)
2026-04-22 08:30:00
5
原图定位
行业数据1
A320ceo、A320neo、B737-800、B737max8机型油耗比较
2026-04-13 08:15:45
29
原图定位
行业数据1
Q14: Thinking about the future, where do you see AI having the biggest impact in HR in 2026? Multiple responses allowed.
2026-04-02 08:30:00
85
原图定位
行业数据1
Figure 1. ‘When thinking about reading regularly for pleasure (i.e., at least once a week), what statement is true for you, if any at all?’
2026-03-26 08:30:00
87
原图定位
行业数据1
SuperCLUE测评基准2025年年度总体表现(数据截至2026年2月27日)
2026-03-16 08:15:43
52
原图定位
行业数据1
MAX全球生态连接
2026-03-15 08:13:46
29
原图定位
行业数据1
Figure 20260211 Dutch Auction Max Rate Example
2026-02-11 08:10:00
40
原图定位
行业数据1
SuperCLUE-2025年年度测评选取了国内外有代表性的23个大模型,
2026-02-04 14:57:38
65
原图定位
行业数据1
SuperCLUE2025年年度测评数学推理总分对比
2026-02-04 14:57:38
62
原图定位
行业数据1
SuperCLUE2025年年度测评智能体(任务规划)总分对比
2026-02-04 14:57:38
54
原图定位
行业数据1
2025年全年SuperCLUE通用基准测评海内外大模型Top3
2026-02-04 14:57:38
59
原图定位
行业数据1
SuperCLUE2025年年度基准测评Kimi-K2.5-Thinking六大任务得分
2026-02-04 14:57:38
56
原图定位
行业数据1
SuperCLUE2025年年度测评精确指令遵循总分对比
2026-02-04 14:57:38
52
原图定位
行业数据1
SuperCLUE2025年年度测评科学推理总分对比
2026-02-04 14:57:38
58
原图定位
最新数据
行业数据1
全国历年新建住宅交易额及同比
2026-04-24 08:15:51
19
原图定位
行业数据1
全国历年二手住宅交易额及同比
2026-04-24 08:15:51
10
原图定位
行业数据1
图表21全球海外华侨人口数量统计表(百万人)
2026-04-24 08:15:51
4
原图定位
行业数据1
图表20国际中餐(除大陆)市场规模(亿美元)及增
2026-04-24 08:15:51
6
原图定位
行业数据1
图表182020-2025年全国餐饮连锁化率持续上升
2026-04-24 08:15:51
7
原图定位
行业数据1
图表162020-2029年中国内地餐饮细分市场规模(十亿元)及同比
2026-04-24 08:15:51
5
原图定位
1.模型介绍. 舰推理模型,在事实知识、复杂推理、智能体等任务上媲美 Preview等国际顶尖模型。 2.能力优势。 (1)复杂推理。Qwen3-Max-Thinking在本次通用测评的推理任 务上取得非常优秀的成绩,具体而言,在数学推理任务中以 80.87分与Gemini-3-Pro-Preview并列全球第一,超越GPT- 5.2(high)、Claude-Opus-4.5-Rea soning等一众国际顶尖模型。在 科学推理任务中也以68.85分取得全球第六的成绩,整体的推理 能力十分强悍。 (2)智能体-任务规划。Qwen3-Max-Thinking在智能体任务上 取得70.13分,身全球Top3,超越Gemini-3-Pro-Preview,媲美 3.提升方向。 (1)幻觉控制。Qwen3-Max-Thinking在该任务上取得74.05分, 相较于Preview版本,有12分左右的提升,但整体处于中游,与 头部模型还存在14分左右的差距,存在一定的提升空间。 (2)精确指令遵循。Qwen3-Max-Thinking在该任务上取得 28.22分,位于中部水平,与海外最佳模型差距近23分,与国内 最佳模型差距超过9分。 (3)代码。Qwen3-Max-Thinking在代码生成任务上取得41.56 分,超越Gemini-3-Flash-Preview,但较最佳模型还有12分左右 的差距。
行业数据
原图定位
相关数据
最新数据