一句话CodeClash 是一个开源的目标导向软件工程基准,用多轮代码演化与竞技场竞争评估大模型的软件开发能力。
定价开源免费 正文显示 CodeClash is fully open-source,并提供论文、GitHub、Arenas、Trajectories 入口;未提及商业版、托管服务或付费计划。
适合谁AI研究人员、大模型评测团队、软件工程智能体开发者、模型提供商、学术机构
核心功能目标导向软件工程评测多轮 edit-then-compete 流程竞技场相对评分模型排行榜与 ELO 分数开放论文、GitHub、Arenas 和 Trajectories支持分析模型迭代、日志处理、代码演化和技术债表现
AI能力与模型正文展示了多个模型在 CodeClash 上的排行榜和 ELO,包括 Claude Sonnet 4.5、GPT-5、o3、Claude Sonnet 4、GPT-5 Mini、Gemini 2.5 Pro、Grok Code Fast、Qwen3 Coder。CodeClash 本身不是一个生成模型,而是用于评估语言模型在目标导向软件工程中的多轮开发能力。
典型用例用于让模型在没有明确 GitHub issue 或任务清单的情况下,仅根据高层目标自主决定构建内容;模型在多轮中编辑代码、分析日志、运行测试、重构、实现算法,再进入竞技场竞争,以相对成绩评估效果。
免费额度/试用正文未提及免费额度或试用限制,但明确说明 CodeClash is fully open-source。
定价未提及商业定价;根据正文仅可判断为开源项目。
中文支持正文为英文,未提及中文界面、中文文档或中文模型适配。排行榜中包含 Qwen3 Coder,但这不等同于产品中文支持。
API与集成正文提供 View on GitHub、Explore Arenas、Explore Trajectories 等入口,但未说明 API、SDK、插件或第三方集成能力。
数据隐私正文未提及数据隐私、数据存储、模型调用数据处理或企业合规机制。
输出质量与局限评测结果指出模型距离人类仍有较大差距,尤其在 RobotRumble 中人类方案显著优于最佳语言模型;模型难以通过多轮迭代持续改进,存在失败模式,代码库会快速累积技术债并变得混乱。
中国访问未知
适用场景评估大模型在目标导向软件工程中的能力;比较不同模型在多轮代码演化和竞技场竞争中的表现;研究AI代码智能体的长期迭代、日志分析、策略优化和技术债问题;构建或复现软件工程智能体 benchmark。
同类SWE-bench、HumanEval、LiveCodeBench、Aider benchmark、OpenHands/AI agent evaluation frameworks