LLM万智牌对战基准
各维度得分依据公开资料与字段推算,加权后即综合评分,仅供参考。
mage-bench 是一个大语言模型基准测试与可观测性项目,让 LLM 在完整 XMage 规则引擎中对战《Magic: The Gathering》。它不是简化卡牌模拟器,而是让模型看到真实游戏状态、选择合法动作,并由引擎按人类游戏规则结算后果。
项目重点考察复杂策略推理:隐藏信息、堆叠交互、战斗计算、优先权、连锁副作用和多回合规划。网站显示 Season 2 已有 214 场游戏、36 个模型、5 种格式,并提供按赛制和综合 Elo 排名。其可观测性包括回放、日志、衍生统计,以及对已完成对局的 blunder analysis,用于估计模型是否做出策略性坏选择,而不只看胜负。
榜单中出现 Claude Opus、GPT、Gemini、DeepSeek、Qwen、Llama、GLM、Grok 等模型。Season 1 冠军为 Gemini 3 Pro,Season 2 当前榜单前列包括 Claude Opus 4.6、GPT-5.2、GPT-5.3 Codex、Gemini 3 Pro 和 DeepSeek V3.2。需要注意,作者明确表示即便前沿模型目前也“玩得很差”,因此它更适合横向比较模型,而不是寻找最强万智牌机器人。
抓取文本未提供定价、免费试用、支付方式或商业服务信息。技术上,项目是 XMage 的 fork,并配有 harness,让 LLM agents 通过 structured tools 操控套牌;但未说明公开 API、SDK 或外部提交模型的流程。文本也没有数据隐私、日志保留或安全政策说明。
优点是评测环境复杂、动态且竞争性强,较能观察模型在长期规划和规则约束下的真实决策;Elo、回放和日志也便于研究分析。缺点是门槛高、场景窄,blunder analysis 目前被作者称为不可靠,且缺少中文、价格和服务支持信息。它适合 LLM 研究者、Agent 开发者和模型评测团队,不适合普通生产力用户。
文本未提供中国大陆访问、备案、支付或镜像信息,china_access 只能判定为未知。若需要替代,可参考 Chatbot Arena、HELM、SWE-bench、AgentBench 等更通用的模型评测体系。
本测评基于公开资料整理,不构成购买建议,请以 mage-bench.com 官网实际信息为准。
少见LLM评测项目,适合AI研究者关注。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。