SuperCLUE2025年年度测评智能体(任务规划)总分对比
2026-02-04 14:57:38
31
相关数据
行业数据1
SuperCLUE测评基准2025年年度总体表现(数据截至2026年2月27日)
2026-03-16 08:15:43
28
原图定位
行业数据1
SuperCLUE2025年年度测评科学推理总分对比
2026-02-04 14:57:38
30
原图定位
行业数据1
SuperCLUE2025年年度测评开闭源大模型6大任务平均分对比
2026-02-04 14:57:38
33
原图定位
行业数据1
SuperCLUE2025年年度测评代码生成总分对比
2026-02-04 14:57:38
29
原图定位
行业数据1
SuperCLUE2025年年度基准测评Qwen3-Max-Thinking六大任务得
2026-02-04 14:57:38
31
原图定位
行业数据1
SuperCLUE2025年年度测评海内外大模型6大任务平均分对比
2026-02-04 14:57:38
29
原图定位
行业数据1
SuperCLUE2025年年度基准测评Kimi-K2.5-Thinking六大任务得分
2026-02-04 14:57:38
38
原图定位
行业数据1
SuperCLUE2025年年度测评六大任务国内Top3
2026-02-04 14:57:38
30
原图定位
行业数据1
SuperCLUE2025年年度通用测评推理模型推理效能区间分布(含补测)
2026-02-04 14:57:38
27
原图定位
行业数据1
SuperCLUE2025年年度通用测评性价比区间分布
2026-02-04 14:57:38
33
原图定位
行业数据1
2025年全年SuperCLUE通用基准测评海内外大模型Top3
2026-02-04 14:57:38
36
原图定位
行业数据1
SuperCLUE2025年年度测评数学推理总分对比
2026-02-04 14:57:38
42
原图定位
行业数据1
SuperCLUE2025年年度基准测评开源模型总分对比
2026-02-04 14:57:38
29
原图定位
行业数据1
SuperCLUE2025年年度测评精确指令遵循总分对比
2026-02-04 14:57:38
30
原图定位
行业数据1
国资委79号文件央国企信创替代方案
2024-10-10 08:15:13
21462
原图定位
最新数据
行业数据1
区域洞察 英国
2026-04-02 08:30:00
9
原图定位
行业数据1
全球洞察
2026-04-02 08:30:00
8
原图定位
行业数据1
Q14: Thinking about the future, where do you see AI having the biggest impact in HR in 2026? Multiple responses allowed.
2026-04-02 08:30:00
11
原图定位
行业数据1
The State of AI in Small Business HR: 2026 Industry Report
2026-04-02 08:30:00
10
原图定位
行业数据1
2026年小型企业人力资源人工智能状况报告
2026-04-02 08:30:00
12
原图定位
政策法规1
问题9:您的企业是否有人工智能使用政策?
2026-04-02 08:30:00
11
原图定位
介绍:主要考察模型在复杂任务场景中制定结构化行动方案的能力,包括且不限于生活服务、工作协作、学习成长、健康医疗等。要求模型基于给定目标和约束条件, 生成逻辑连贯、步骤清晰、可执行的行动计划。 评价方式:利用裁判模型根据行动方案对预设检查点的完成情况进行离散判定(0/1),或对方案整体质量进行连续评分(0-100)。 1.海外头部模型优势显著。 海外头部模型GPT-5.2(high)以81.39 分领跑榜单,Claude-Opus-4.5- Reasoning以74.87分紧随其后。国 内Qwen3-Max-Thinking (70.13分) 和Kimi-K2.5-Thinking(68.06分) 分居第三和第四,海内外头部模型 的差距超过10分,国产模型在任务 规划领域还有一定的进步空间。 2.行业整体水平跨度巨大,长 尾效应明显。 面的发展极不平衡,整体水平跨度 巨大,两极分化比较严重,最高分 和最低分相差了4倍之多。此外, 的,达到了13.78,说明该任务对于 当前大模型依然是极具挑战性的, 是区分大模型能力的关键。
行业数据
原图定位
相关数据
最新数据