海外资源测评导航
返回建站模板 海外资源 / 建站模板 / LLM游戏基准测试 / mage-bench.com
M
🧱 建站模板 LLM游戏基准测试 未知总部 国内优化

mage-bench.com 建站模板测评

LLM万智牌对战基准

7.0/10 中国可用
TTG4G 编辑组 ·更新于 2026-06-07 ·数据来源: ai_crawl 评测方法 ↗
数据来源
ai_crawl · 最近更新 2026-06-12

⚡ 评分构成

五维加权 · 满分 10
性能 / 功能25% 7.0
性价比20% 7.0
中国可用度20% 10.0
口碑20% 6.0
售后 / 退款15% 6.5

各维度得分依据公开资料与字段推算,加权后即综合评分,仅供参考。

行业深度解析AI 深度分析
一句话mage-bench 是一个让大语言模型在完整 XMage 规则引擎中对战《万智牌》的基准测试与可观测性项目。
适合谁大语言模型研究者、Agent 能力评测人员、模型开发团队、关注复杂推理与策略博弈评测的技术用户
核心功能让 LLM 在 Magic: The Gathering 中相互对战基于完整 XMage 规则引擎而非简化模拟器支持多赛制比赛与排行榜按赛制与综合 Elo 评分发布回放、日志和衍生统计对已完成游戏进行 blunder analysis 以估计策略性失误
AI能力与模型项目本身不是一个生成式 AI 模型,而是评测 LLM Agent 的基准平台。已测试 Anthropic、OpenAI、Google、DeepSeek、Qwen、Llama、GLM、Grok 等模型或模型系列,Season 2 显示 36 个模型、5 种格式、214 场游戏。
典型用例让不同 LLM 操控万智牌套牌进行对战,记录胜负、回合数、Elo、回放与日志;用于比较模型在复杂规则、隐藏信息、战斗计算、堆叠交互和多回合规划中的表现。
API与集成正文提到项目是 XMage 的 fork,并带有 harness,使 LLM agents 通过 structured tools 操控套牌;但未说明公开 API、SDK、接入文档或第三方集成细节。
输出质量与局限项目发布排行榜、Elo、回放、日志和衍生统计,并进行 blunder-analysis。局限是作者明确表示即便前沿模型目前也玩得较差;blunder analysis 属于 best-effort,当前相当不可靠,不应过度解读。
中国访问未知
适用场景评估大语言模型在复杂策略游戏中的推理、长期规划、工具调用和博弈决策能力;对比不同模型在同一规则环境下的胜率与 Elo;通过回放和日志调试 Agent 行为。
同类Chatbot Arena、HELM、MMLU 类评测、SWE-bench、AgentBench、其他博弈类或环境交互型 LLM Benchmark
性价比7
易用5
服务4
综合7
优点
  • 评测场景复杂,覆盖隐藏信息、堆叠交互、战斗计算、优先权和长期规划
  • 采用真实规则引擎,较适合观察 LLM 在复杂环境中的决策能力
  • 提供 Elo 排行、对局记录、回放和日志,具备一定可观测性
  • 强调模型间竞争,较不容易被传统静态题库饱和
不足
  • 并非面向普通用户的生产力工具
  • 文本未提供开放提交模型、API 使用、部署方式或商业服务说明
  • 作者明确说明当前前沿模型也玩得较差
  • blunder analysis 目前可靠性有限,不宜过度解读
  • 没有看到中文界面、定价、隐私政策或服务支持信息

深度测评

TG4G · 2026-06-07 更新 · 仅供参考

是什么

mage-bench 是一个大语言模型基准测试与可观测性项目,让 LLM 在完整 XMage 规则引擎中对战《Magic: The Gathering》。它不是简化卡牌模拟器,而是让模型看到真实游戏状态、选择合法动作,并由引擎按人类游戏规则结算后果。

核心能力与评测维度

项目重点考察复杂策略推理:隐藏信息、堆叠交互、战斗计算、优先权、连锁副作用和多回合规划。网站显示 Season 2 已有 214 场游戏、36 个模型、5 种格式,并提供按赛制和综合 Elo 排名。其可观测性包括回放、日志、衍生统计,以及对已完成对局的 blunder analysis,用于估计模型是否做出策略性坏选择,而不只看胜负。

模型与结果

榜单中出现 Claude Opus、GPT、Gemini、DeepSeek、Qwen、Llama、GLM、Grok 等模型。Season 1 冠军为 Gemini 3 Pro,Season 2 当前榜单前列包括 Claude Opus 4.6、GPT-5.2、GPT-5.3 Codex、Gemini 3 Pro 和 DeepSeek V3.2。需要注意,作者明确表示即便前沿模型目前也“玩得很差”,因此它更适合横向比较模型,而不是寻找最强万智牌机器人。

定价、集成与隐私

抓取文本未提供定价、免费试用、支付方式或商业服务信息。技术上,项目是 XMage 的 fork,并配有 harness,让 LLM agents 通过 structured tools 操控套牌;但未说明公开 API、SDK 或外部提交模型的流程。文本也没有数据隐私、日志保留或安全政策说明。

优缺点与适合谁

优点是评测环境复杂、动态且竞争性强,较能观察模型在长期规划和规则约束下的真实决策;Elo、回放和日志也便于研究分析。缺点是门槛高、场景窄,blunder analysis 目前被作者称为不可靠,且缺少中文、价格和服务支持信息。它适合 LLM 研究者、Agent 开发者和模型评测团队,不适合普通生产力用户。

中国访问

文本未提供中国大陆访问、备案、支付或镜像信息,china_access 只能判定为未知。若需要替代,可参考 Chatbot Arena、HELM、SWE-bench、AgentBench 等更通用的模型评测体系。

本测评基于公开资料整理,不构成购买建议,请以 mage-bench.com 官网实际信息为准。

📢 订阅 TG4G 电报频道
每日精选海外资源 + 国内可用性速报 · 也可在 @amzseo_bot 直接搜
加入频道 →

中文卖点

少见LLM评测项目,适合AI研究者关注。

官网快照

/shot/mage-bench-com.png
mage-bench.com

价格走势

当前价 · 仅供参考
价格未公开 当前定价
价格采集自官网公开页面,实时更新;历史走势数据采集中,暂无足够历史样本。下单请以官网实时价为准。

用户评价

综合评分
7.0/10
TG4G 综合评分

评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。

常见问题

mage-bench.com 是一家未知的建站模板 (LLM游戏基准测试)服务商. 本页收录其「LLM万智牌对战基准」套餐. 少见LLM评测项目,适合AI研究者关注.
mage-bench.com 综合评分 7.0/10, 总部未知. 是什么 mage bench 是一个大语言模型基准测试与可观测性项目,让 LLM 在完整 XMage 规则引擎中对战《Magic: The Gathering》。它不是简化卡牌模拟器,而是让模型看到真实游戏状态、选择合法动作,并由引擎按人类游戏规则结算后果。 核心能力与评测维度 项目重点考察复杂策略... 完整深度测评见本页下方.
mage-bench.com 在中国大陆有较好的直连体验, 多数地区无需代理即可访问. 该商家总部位于未知, 主要面向海外市场.
访问 mage-bench.com 官网完成注册即可使用. 注册一般需要邮箱 (推荐 Gmail/Outlook) 和支付方式. 多数海外服务支持信用卡 / PayPal / 加密货币. 完整流程见本页"前往官网"按钮.

浏览其他大类

🌾 农业食品 🤖 AI 应用 🔗 API 数据 🚪 API 网关 🧊 3D素材 🚗 汽车出行 🗃 备份容灾 📋 公司合规 📡 智能盒子 🌐 CDN 💬 聊天 App ☁ 网盘云盘 📖 漫画网文 ✉ 通讯邮箱 🏢 跨国名企 💰 加密 🗄 托管数据库 🏷 比价优惠 🎨 设计创意 🔧 开发工具 📡 DNS 解析 🌍 域名 ⬇ 下载软件 🛒 电商 📚 教育课程 📧 邮件发送 ⚡ 能源环保 🎫 活动票务 🎪 会展展会 📤 文件传输 🏦 金融钱包 📝 表单调研 💭 论坛社区 💸 众筹融资 🎮 游戏服务 🎮 游戏市场 🕹 游戏平台 🎁 订阅礼品卡 🏛 政府机构 🎯 GPU 算力 🔌 硬件 IoT 🩺 医疗健康 👔 招聘远程 🖼 图片灵感 🛡 保险 💼 求职招聘 📒 知识笔记 ⚖ 法务财税 📍 本地生活 📦 物流货运 🔎 生活查询 🗺 地图导航 📈 营销 SEO 📺 流媒体订阅 🎞 家庭影音 📰 新闻资讯 🤝 公益慈善 📄 办公协作 🌍 国际组织 ☁ 应用部署 🎛 主机面板 🔑 密码安全 💳 支付 🐾 宠物 👕 印刷定制 🎙 播客有声 🔌 代理 ❓ 问答内容 🏠 房产租售 ⚡ 实时通信 🖥 远程桌面 🗂 资源站 ⚙ SaaS ♻ 二手交易 🛡 安全 📱 短视频直播 📲 接码虚拟号 💬 社交约会 🔐 SSL 证书 💾 云存储 🎓 留学教育 🎧 在线客服 🧰 在线工具 🌐 翻译本地化 ✈ 旅游出行 🏛 全球大学 🚀 加速器 VC ▶ 视频平台 🎬 视频托管 🔒 VPN 隐私 🖥 服务器 🌐 虚拟主机 🔏 零信任组网