评测编码智能体基准
RExBench 是一个用于评估 LLM 编码代理或其他 AI 系统能否自主实现 AI 研究扩展的基准测试。它不是通用代码补全工具,而是面向更复杂的机器学习研究场景:代理需要阅读研究论文、理解原始代码库,并根据领域专家编写的扩展指令生成补丁,再由评测基础设施执行和打分。
从功能上看,RExBench 包含 12 个研究实验实现任务,每个任务都是对既有论文和代码库的延伸,强调真实科研代码修改能力。评测流程较完整:输入论文、代码库和扩展说明,系统实现扩展并产出 patch,随后应用到原代码并运行评测,最终根据指定指标评价。排行榜提供 Final success、Execution success、File recall 等指标,便于比较不同代理与模型组合。
支持语言和框架方面,正文没有明确列出具体编程语言或 ML 框架,这是评估其适配范围时的一个信息缺口。生态上,页面展示了 OpenHands、aider 以及 Claude、GPT-5、o4-mini、DeepSeek-R1 等模型/代理组合的结果,说明它更适合研究者用于横向比较编码代理能力。
RExBench 数据可从 Hugging Face 下载,并采用 MIT 与 Apache 2.0 双许可证发布;同时提醒用户参考单个任务仓库的许可证。正文未提及收费模式,按现有信息可视为开放研究数据集。API/SDK、自托管部署方式、评测基础设施安装细节均未在正文中明确说明。文档覆盖了目标、流程、引用、许可证和排行榜,但对工程复现实操仍显不足。
优点是任务贴近真实 AI 研究扩展,而非简单算法题;输入上下文完整,包含论文、代码和专家指令;开放许可证也利于学术使用。缺点是任务数量仅 12 个,覆盖面可能有限;API、SDK、运行文档和维护支持信息不充分。
它适合 LLM Agent 研究团队、编码代理开发者、机器学习科研工具评测者,以及需要在论文中引用可复现基准的学术用户。
数据托管在 Hugging Face,中国大陆访问 Hugging Face 可能出现不稳定或需代理的情况,因此评为“部分受限”。支付方面未涉及。若访问受限或需要补充评测,可关注 SWE-bench、HumanEval、AgentBench 等替代或互补基准。
本测评基于公开资料整理,不构成购买建议,请以 rexbench.com 官网实际信息为准。
适合关注AI Agent编程评测的开发者。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。