SuperCLUE2025年年度基准测评Kimi-K2.5-Thinking六大任务得分
2026-02-04 14:57:38
48
相关数据
行业数据1
Q14: Thinking about the future, where do you see AI having the biggest impact in HR in 2026? Multiple responses allowed.
2026-04-02 08:30:00
79
原图定位
行业数据1
Figure 1. ‘When thinking about reading regularly for pleasure (i.e., at least once a week), what statement is true for you, if any at all?’
2026-03-26 08:30:00
78
原图定位
行业数据1
SuperCLUE测评基准2025年年度总体表现(数据截至2026年2月27日)
2026-03-16 08:15:43
40
原图定位
行业数据1
2025年全年SuperCLUE通用基准测评海内外大模型Top3
2026-02-04 14:57:38
48
原图定位
行业数据1
SuperCLUE2025年年度测评代码生成总分对比
2026-02-04 14:57:38
38
原图定位
行业数据1
SuperCLUE2025年年度通用测评性价比区间分布
2026-02-04 14:57:38
57
原图定位
行业数据1
SuperCLUE2025年年度测评开闭源大模型6大任务平均分对比
2026-02-04 14:57:38
41
原图定位
行业数据1
SuperCLUE-2025年年度测评选取了国内外有代表性的23个大模型,
2026-02-04 14:57:38
56
原图定位
行业数据1
SuperCLUE2025年年度基准测评开源模型总分对比
2026-02-04 14:57:38
41
原图定位
行业数据1
SuperCLUE2025年年度测评精确指令遵循总分对比
2026-02-04 14:57:38
41
原图定位
行业数据1
SuperCLUE2025年年度基准测评Qwen3-Max-Thinking六大任务得
2026-02-04 14:57:38
43
原图定位
行业数据1
SuperCLUE2025年年度测评幻觉控制总分对比
2026-02-04 14:57:38
35
原图定位
行业数据1
SuperCLUE2025年年度测评六大任务国内外Top20热力图
2026-02-04 14:57:38
49
原图定位
行业数据1
SuperCLUE2025年年度测评智能体(任务规划)总分对比
2026-02-04 14:57:38
41
原图定位
行业数据1
SuperCLUE2025年年度通用测评推理模型推理效能区间分布(含补测)
2026-02-04 14:57:38
39
原图定位
最新数据
行业数据1
第一次石油危机后全球能源消费结构中石油占比呈下降走势
2026-04-13 08:15:45
36
原图定位
行业数据1
第二次石油危机期间IEA成员国库存攀升
2026-04-13 08:15:45
36
原图定位
竞争格局1
1980年至1985年OPEC市场份额下滑
2026-04-13 08:15:45
39
原图定位
行业数据1
国际油价回归经验梳理
2026-04-13 08:15:45
39
原图定位
行业数据1
布伦特原油价格月度涨幅TOP10(以美元计价)
2026-04-13 08:15:45
46
原图定位
行业数据1
T2SL探测器国科天成与高德红外性能对比
2026-04-13 08:15:45
32
原图定位
1.模型介绍。 Kimi-K2.5-Thinking是月之暗面在2026年1月27日发布并开源的最 新原生多模态模型,在Agent、代码、视觉理解等任务上取得开 2.能力优势。 (1)代码。与官方宣传一致,Kimi-K2.5-Thinking在本次通用 子任务和WebCoding子任务),其以53.33分领跑全球。其中, 独立函数生成子任务得分全球第二,Web Coding子任务的得分 全球第一,其前端代码能力十分优秀,具有国际顶尖水平。 (2)智能体-任务规划。Kimi-K2.5-Thinking在智能体任务上取 得68.06分,媲美国际顶尖模型GPT-5.2(high)和Claude-Opus-4.5- (3)复杂推理。Kimi-K2.5-Thinking在数学推理任务上取得 77.39分,位居全球第四,与Gemini-3-Pro-Preview(80.87分)相 差仅3分左右;在科学推理任务上取得67.21分,位于国内Top5, 该模型整体的推理能力位于海内外头部水平。 3.提升方向。 (1)精确指令遵循。Kimi-K2.5-Thinking在该任务上仅取得 24.45分,整体排名居中,与海外最佳模型差距超过26分,与国 内最佳模型差距超过13分,存在一定的提升空间。 (2)幻觉控制。Kimi-K2.5-Thinking在该任务上取得78.54分, 相较于上个版本Kimi-K2-Thinking,有9分左右的提升,整体处 于中上游,但与头部模型还存在10分左右的差距。
行业数据
原图定位
相关数据
最新数据