海外资源测评导航
返回开发工具 海外资源 / 开发工具 / AI编码基准测试 / rexbench.com
R
🔧 开发工具 AI编码基准测试 美国总部 国内优化

rexbench.com

评测编码智能体基准

7.0/10 中国可用
TTG4G 编辑组 ·更新于 2026-06-08 ·数据来源: ai_crawl 评测方法 ↗
数据来源
ai_crawl · 最近更新 2026-06-08
行业深度解析AI 深度分析
一句话RExBench 是用于评估 LLM 编码代理能否自主扩展 AI 研究代码库的基准测试数据集与排行榜。
定价免费/开源数据集 正文未提及收费;数据可从 Hugging Face 下载,数据采用 MIT 与 Apache 2.0 双许可证发布。
适合谁LLM 编码代理研究者、AI Agent 评测团队、机器学习研究工具开发者、学术研究人员
核心功能包含 12 个研究实验实现任务每个任务基于既有研究论文与代码库的扩展提供领域专家编写的任务说明支持端到端评估流程:输入论文/代码/指令、生成补丁、执行评测、指标打分提供排行榜数据可从 Hugging Face 下载评测指标包括 Final success、Execution success、File recall
功能与用途用于评估 LLM agents 或其他 AI 系统扩展既有 AI 研究的能力。基准包含 12 个研究实验实现任务,每个任务都是对已有研究论文和代码库的扩展,并配有领域专家编写的说明。流程包括接收论文、原始代码库和扩展指令,生成 patch,将 patch 应用到原代码并通过评测基础设施执行,最后依据指定指标评估。
支持语言/框架正文未明确列出支持的编程语言或机器学习框架。排行榜中出现 OpenHands、aider 作为代理框架,以及 Claude、GPT-5、o4-mini、DeepSeek-R1 等模型运行结果。
开源还是闭源数据采用 MIT 与 Apache 2.0 双许可证发布;正文未说明网站或评测基础设施本身是否完全开源。
自托管选项正文提到可下载数据集,并通过评测基础设施执行任务,但未明确说明是否提供自托管部署方式。
定价未提及商业定价。数据可从 Hugging Face 下载,并以 MIT 与 Apache 2.0 双许可证发布,推测数据本身免费使用,但需遵守各任务仓库许可证。
API/SDK正文未提及 API 或 SDK。
集成与生态数据集托管在 Hugging Face;排行榜展示了 OpenHands、aider 等编码代理以及 Claude、GPT、o 系列、DeepSeek 等模型的结果。要求引用相关 ACL 2026 论文。
文档质量正文说明了基准目标、端到端流程、数据下载、引用方式、许可证和排行榜指标,但缺少安装运行、提交规范、任务格式、评测复现等更细的工程文档信息。
中国访问部分受限
适用场景评估 LLM 编码代理实现机器学习研究扩展的能力;比较不同模型和代理框架在真实研究代码库上的表现;为论文或工具研发提供可复现实验基准。
同类SWE-bench、ML-Bench、HumanEval、AgentBench、OpenHands Benchmark
性价比8
易用6
服务5
综合7
优点
  • 任务设计贴近真实 AI 研究扩展场景
  • 包含论文、原始代码库和专家指令,评测上下文较完整
  • 提供明确的执行与结果评估流程
  • 开放数据许可较宽松
  • 已有多个主流编码代理和模型的排行榜结果可参考
不足
  • 任务数量仅 12 个,覆盖面可能有限
  • 正文未提供完整安装、运行评测基础设施的细节
  • 未说明 API、SDK 或自动提交接口
  • 未说明维护主体、支持渠道和更新频率
  • 涉及 Hugging Face 下载,在中国大陆访问可能不稳定

深度测评

TG4G · 2026-06-08 更新 · 仅供参考

是什么

RExBench 是一个用于评估 LLM 编码代理或其他 AI 系统能否自主实现 AI 研究扩展的基准测试。它不是通用代码补全工具,而是面向更复杂的机器学习研究场景:代理需要阅读研究论文、理解原始代码库,并根据领域专家编写的扩展指令生成补丁,再由评测基础设施执行和打分。

核心能力与技术维度

从功能上看,RExBench 包含 12 个研究实验实现任务,每个任务都是对既有论文和代码库的延伸,强调真实科研代码修改能力。评测流程较完整:输入论文、代码库和扩展说明,系统实现扩展并产出 patch,随后应用到原代码并运行评测,最终根据指定指标评价。排行榜提供 Final success、Execution success、File recall 等指标,便于比较不同代理与模型组合。

支持语言和框架方面,正文没有明确列出具体编程语言或 ML 框架,这是评估其适配范围时的一个信息缺口。生态上,页面展示了 OpenHands、aider 以及 Claude、GPT-5、o4-mini、DeepSeek-R1 等模型/代理组合的结果,说明它更适合研究者用于横向比较编码代理能力。

开放性、定价与文档

RExBench 数据可从 Hugging Face 下载,并采用 MIT 与 Apache 2.0 双许可证发布;同时提醒用户参考单个任务仓库的许可证。正文未提及收费模式,按现有信息可视为开放研究数据集。API/SDK、自托管部署方式、评测基础设施安装细节均未在正文中明确说明。文档覆盖了目标、流程、引用、许可证和排行榜,但对工程复现实操仍显不足。

优缺点与适合人群

优点是任务贴近真实 AI 研究扩展,而非简单算法题;输入上下文完整,包含论文、代码和专家指令;开放许可证也利于学术使用。缺点是任务数量仅 12 个,覆盖面可能有限;API、SDK、运行文档和维护支持信息不充分。

它适合 LLM Agent 研究团队、编码代理开发者、机器学习科研工具评测者,以及需要在论文中引用可复现基准的学术用户。

中国访问

数据托管在 Hugging Face,中国大陆访问 Hugging Face 可能出现不稳定或需代理的情况,因此评为“部分受限”。支付方面未涉及。若访问受限或需要补充评测,可关注 SWE-bench、HumanEval、AgentBench 等替代或互补基准。

本测评基于公开资料整理,不构成购买建议,请以 rexbench.com 官网实际信息为准。

中文卖点

适合关注AI Agent编程评测的开发者。

官网快照

/shot/rexbench-com.png
rexbench.com

价格走势

当前价 · 仅供参考
价格未公开 当前定价
价格采集自官网公开页面,实时更新;历史走势数据采集中,暂无足够历史样本。下单请以官网实时价为准。

用户评价

综合评分
7.0/10
TG4G 综合评分

评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。

常见问题

rexbench.com 是一家美国的开发工具 (AI编码基准测试)服务商. 本页收录其「评测编码智能体基准」套餐. 适合关注AI Agent编程评测的开发者.
rexbench.com 在中国大陆有较好的直连体验, 多数地区无需代理即可访问. 该商家总部位于美国, 主要面向海外市场.
访问 rexbench.com 官网完成注册即可使用. 注册一般需要邮箱 (推荐 Gmail/Outlook) 和支付方式. 多数海外服务支持信用卡 / PayPal / 加密货币. 完整流程见本页"前往官网"按钮.

浏览其他大类