SWE-benchVerified2026Q1实测得分
2026-04-20 14:45:42
7
相关数据
行业数据1
不同规模模型在SWE-Bench验证常规性能表现对比
2025-12-17 13:47:07
88
原图定位
行业数据1
Qwen3Coder在SWE-Bench排名第四(截至2025/8/7)
2025-08-13 13:45:34
117
原图定位
行业数据1
每日贡献行数测试中,SWE-1与Claude系
2025-07-14 13:48:53
196
原图定位
行业数据1
贡献率测试中,SWE-1与Claude系列的比
2025-07-14 13:48:53
198
原图定位
行业数据1
国资委79号文件央国企信创替代方案
2024-10-10 08:15:13
21664
原图定位
行业数据1
2025年11月建议关注的ETF(基于10月28日份额、净值数据)
2025-10-31 13:41:28
20353
原图定位
行业数据1
日本小学/初中/高中在校生人数构成及私立占比
2024-08-16 08:15:31
19365
原图定位
行业数据1
《原神》月活跃用户、用户画像一览
2022-10-09 06:08:36
17141
原图定位
行业数据1
2025年巴拿马电源市场规模预测
2023-05-25 13:28:46
15761
原图定位
其它1
阿里巴巴股权结构(截至2024年5月)
2024-07-31 08:15:01
11952
原图定位
行业数据1
公司股权结构(截至2025年Q3)
2025-11-13 13:55:23
10653
原图定位
行业数据1
上海米哈游网络科技股份有限公司股东信息
2021-05-19 12:01:48
9351
原图定位
行业数据1
小鹏P7感知系统硬件分布
2021-08-10 11:39:17
8597
原图定位
其它1
1982-2020全国出生人口性别比
2023-06-26 09:10:59
8198
原图定位
其它1
国内电表出海最主要的区域是非洲、欧洲和亚洲,是兰吉尔的影响力在逐步减弱的区域(单位:亿元)
2024-02-19 08:18:39
8131
原图定位
最新数据
行业数据1
图1:发展中成员国税务管理系统改进机会与挑战
2026-04-22 08:30:00
10
原图定位
行业数据1
表A3.1. 国家系统要素及使用程度的决策指标汇总
2026-04-22 08:30:00
8
原图定位
行业数据1
图A2.1 用于定位国家系统使用的分析框架
2026-04-22 08:30:00
6
原图定位
行业数据1
表A1.1 本研究覆盖的34个发展中成员国分类
2026-04-22 08:30:00
9
原图定位
行业数据1
表17.关于治理和财政政策方面的特定国家的关键实践
2026-04-22 08:30:00
7
原图定位
行业数据1
图12.亚行和发展中成员国考虑的行动框架
2026-04-22 08:30:00
8
原图定位
SWE-benchVerified 是由Princeton/OpenAl等维护的"软件工程基准",任务来自GitHub真实issue(需理解代码库、定位bug、编写 补丁、通过测试)。2024年顶尖模型仅~20%,2026年Q1ClaudeOpus 4.6/Gemini3.1Pro双双突破80%,首次跨越"工程师可放心 托付"的临界线。 ?Google追平 Claude系列长期占据SWE-bench榜 首,Claude Code与Cursor/Windsurft均 Gemini 3.1 Pro以80.6%追平Claude, 且推理成本低40%,成为Cursor等应用 GPT-5.4达80.0%, 在SWE-bench Pro 更难任务上与Claude不相上下,但代码 SWE-bench仅衡量"能否修bug",不衡量代码可读性、可维护性、工程直觉。Cursor/Copilot/Claude Code之间的差距更多体现在上 下文工程、编辑器交互、Agent框架等产品层能力,而非模型原始得分。SWE-bench Pro上所有主流模型仅~23%,暴露真实工程复 杂度远未被攻克。 www.data17.cn·Al编程行业研究报告
行业数据
原图定位
相关数据
最新数据