SuperCLUE2025年年度测评精确指令遵循总分对比
2026-02-04 14:57:38
37
相关数据
行业数据1
SuperCLUE测评基准2025年年度总体表现(数据截至2026年2月27日)
2026-03-16 08:15:43
40
原图定位
行业数据1
SuperCLUE2025年年度测评六大任务国内Top3
2026-02-04 14:57:38
38
原图定位
行业数据1
SuperCLUE2025年年度通用测评性价比区间分布
2026-02-04 14:57:38
55
原图定位
行业数据1
SuperCLUE2025年年度基准测评Kimi-K2.5-Thinking六大任务得分
2026-02-04 14:57:38
45
原图定位
行业数据1
SuperCLUE2025年年度测评数学推理总分对比
2026-02-04 14:57:38
51
原图定位
行业数据1
SuperCLUE2025年年度测评幻觉控制总分对比
2026-02-04 14:57:38
32
原图定位
行业数据1
SuperCLUE2025年年度测评开闭源大模型6大任务平均分对比
2026-02-04 14:57:38
38
原图定位
行业数据1
SuperCLUE2025年年度通用测评推理模型推理效能区间分布(含补测)
2026-02-04 14:57:38
37
原图定位
行业数据1
SuperCLUE2025年年度测评海内外大模型6大任务平均分对比
2026-02-04 14:57:38
41
原图定位
行业数据1
2025年全年SuperCLUE通用基准测评海内外大模型Top3
2026-02-04 14:57:38
45
原图定位
行业数据1
SuperCLUE2025年年度测评智能体(任务规划)总分对比
2026-02-04 14:57:38
39
原图定位
行业数据1
SuperCLUE-2025年年度测评选取了国内外有代表性的23个大模型,
2026-02-04 14:57:38
51
原图定位
行业数据1
SuperCLUE2025年年度测评科学推理总分对比
2026-02-04 14:57:38
43
原图定位
行业数据1
SuperCLUE2025年年度基准测评开源模型总分对比
2026-02-04 14:57:38
37
原图定位
行业数据1
国资委79号文件央国企信创替代方案
2024-10-10 08:15:13
21571
原图定位
最新数据
行业数据1
第一次石油危机后全球能源消费结构中石油占比呈下降走势
2026-04-13 08:15:45
27
原图定位
行业数据1
第二次石油危机期间IEA成员国库存攀升
2026-04-13 08:15:45
28
原图定位
竞争格局1
1980年至1985年OPEC市场份额下滑
2026-04-13 08:15:45
34
原图定位
行业数据1
国际油价回归经验梳理
2026-04-13 08:15:45
30
原图定位
行业数据1
布伦特原油价格月度涨幅TOP10(以美元计价)
2026-04-13 08:15:45
37
原图定位
行业数据1
T2SL探测器国科天成与高德红外性能对比
2026-04-13 08:15:45
29
原图定位
介绍:主要考察模型的指令遵循能力,包括但不限于定义的输出格式或标准来生成响应,精确地呈现要求的数据和信息。涉及的中文场景包括但不限于结构约束、量 化约束、语义约束、复合约束等不少于4个场景。 评价方式:基于规则脚本的0/1评估。 1.梯度分化明显,海外头部领 先显著。 前四名均为海外模型且分差较大, Claude-Opus-4.5-Rea soning 以51.10 分位居榜首,与第二名拉开了近8 分的差距。国产模型ERNIE-5.0、 等紧随其后,与第一名差距超过13 分。国内模型在该任务上的平均分 为19.97分,海外模型的平均分为 27.02分,相差近7分,还有一定的 提升空间。 化严重。 级,难度从等级2到等级9(等级2 整体题目难度较大,所有模型在该 任务上的整体平均分仅22.72分,超
行业数据
原图定位
相关数据
最新数据