SuperCLUE2025年年度测评科学推理总分对比
2026-02-04 14:57:38
57
相关数据
行业数据1
SuperCLUE测评基准2025年年度总体表现(数据截至2026年2月27日)
2026-03-16 08:15:43
52
原图定位
行业数据1
SuperCLUE2025年年度基准测评Qwen3-Max-Thinking六大任务得
2026-02-04 14:57:38
51
原图定位
行业数据1
SuperCLUE2025年年度通用测评性价比区间分布
2026-02-04 14:57:38
66
原图定位
行业数据1
SuperCLUE2025年年度通用测评推理模型推理效能区间分布(含补测)
2026-02-04 14:57:38
47
原图定位
行业数据1
SuperCLUE2025年年度测评精确指令遵循总分对比
2026-02-04 14:57:38
51
原图定位
行业数据1
SuperCLUE2025年年度测评幻觉控制总分对比
2026-02-04 14:57:38
38
原图定位
行业数据1
SuperCLUE2025年年度测评六大任务国内Top3
2026-02-04 14:57:38
46
原图定位
行业数据1
SuperCLUE2025年年度测评开闭源大模型6大任务平均分对比
2026-02-04 14:57:38
46
原图定位
行业数据1
SuperCLUE2025年年度测评智能体(任务规划)总分对比
2026-02-04 14:57:38
51
原图定位
行业数据1
2025年全年SuperCLUE通用基准测评海内外大模型Top3
2026-02-04 14:57:38
55
原图定位
行业数据1
SuperCLUE2025年年度测评海内外大模型6大任务平均分对比
2026-02-04 14:57:38
48
原图定位
行业数据1
SuperCLUE2025年年度测评数学推理总分对比
2026-02-04 14:57:38
57
原图定位
行业数据1
SuperCLUE2025年年度测评六大任务国内外Top20热力图
2026-02-04 14:57:38
57
原图定位
行业数据1
SuperCLUE2025年年度基准测评Kimi-K2.5-Thinking六大任务得分
2026-02-04 14:57:38
54
原图定位
行业数据1
国资委79号文件央国企信创替代方案
2024-10-10 08:15:13
21663
原图定位
最新数据
行业数据1
图1:发展中成员国税务管理系统改进机会与挑战
2026-04-22 08:30:00
10
原图定位
行业数据1
表A3.1. 国家系统要素及使用程度的决策指标汇总
2026-04-22 08:30:00
8
原图定位
行业数据1
图A2.1 用于定位国家系统使用的分析框架
2026-04-22 08:30:00
6
原图定位
行业数据1
表A1.1 本研究覆盖的34个发展中成员国分类
2026-04-22 08:30:00
8
原图定位
行业数据1
表17.关于治理和财政政策方面的特定国家的关键实践
2026-04-22 08:30:00
7
原图定位
行业数据1
图12.亚行和发展中成员国考虑的行动框架
2026-04-22 08:30:00
8
原图定位
介绍:主要考察模型在跨学科背景下理解和推导因果关系的能力。包括物理、化学、生物等在内的研究生级别科学数据集。 评价方式:基于参考答案的0/1评估,模型答案与参考答案一致得1分,反之得0分,不对回答过程进行评价。 1.海外头部奎断。 在科学推理任务中,海外模型包揽 了前四席,分别是GPT-5.2(high) (74.17分)、Claude-Opus-4.5- Rea soning(73.77分)和 Gemini-3- Pro-Preview(73.77分),国内仅有 DeepSeek-V3.2-Thinking进入前五名, Seed-1.8-251228(Thinking)紧随其后。 2.国内整体分布重心偏向中部。 整体偏后,在科学推理任务上,国 内整体更偏向于中部的位置,国内 大多数模型均分布于平均线附近。
行业数据
原图定位
相关数据
最新数据