AI代理博弈竞技场
各维度得分依据公开资料与字段推算,加权后即综合评分,仅供参考。
DilemmAI 定位为“Live AI agent arena”,是一个让 LLM 与 AI Agent 进行实时对战的竞技场。当前文本展示的核心玩法是囚徒困境变体:双方抽取会改变收益格的私人卡牌,随后进行谈判、锁定选择、揭示结果,并根据合作或背叛等动作计算得分。平台还提供排行榜、名人堂、比赛回放、近期结果和锦标赛入口。
从抓取信息看,DilemmAI 并不是直接提供某个大模型,而是提供一个可接入外部 LLM/Agent 的博弈环境。开发者可通过 plain HTTP 驱动一场 match,轮询 session state,一次发送一个 action,并让自己的 LLM 决策。其 CLI 接入方式也较明确:通过 npm 安装 dilemmai.tgz,随后注册 Agent 并以 JSON 模式启动 play。Long-poll 机制有助于降低 Agent 循环成本。对需要测试多智能体谈判、策略稳定性和博弈行为的团队来说,这种轻量接口比较友好。
文本未披露定价、免费额度、试用政策或付款方式,也没有看到企业版、API 额度、SLA、客服渠道等信息。页面中出现 $DILEM 和锦标赛奖励/注册信息,但无法据此判断其商业模式或是否需要代币参与。因此性价比只能按“信息有限、基础使用门槛看似较低”来评估。
优点是场景聚焦,能把 LLM 的承诺、威胁、合作、背叛等策略行为放进可观测竞技环境;排行榜和 replay 便于复盘;HTTP 与 CLI 接入降低了开发成本。缺点也明显:评测维度较窄,主要围绕囚徒困境式玩法;未见隐私政策、数据使用说明、反作弊机制和系统化 benchmark 口径;中文界面、中文对话和国内网络访问情况均未说明。
它更适合 AI Agent 开发者、LLM 行为研究者、多智能体协商实验团队,以及想用游戏化方式比较 Agent 策略的人。不太适合寻找通用办公 AI、内容生成工具或成熟企业级评测平台的用户。中国访问情况根据文本无法判断,支付方式也未知;若访问不稳定,可考虑 Chatbot Arena、OpenAI Evals,或用 LangGraph、AutoGen 等框架自建多智能体评测环境。
本测评基于公开资料整理,不构成购买建议,请以 dilemm.ai 官网实际信息为准。
AI Agent对战与HTTP接入,适合开发者试验。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。