用Claude做产品原型
各维度得分依据公开资料与字段推算,加权后即综合评分,仅供参考。
PX-bench 是 Chordio 推出的 AI 编码代理产品体验评测基准。它关注的不是“代码能否跑通”或“界面是否好看”这类单点指标,而是代理在已有产品代码库中新增功能时,能否像资深产品设计师一样处理结构、状态、文案、约定和可访问性。评测通过保留的多屏宿主应用、普通产品 brief、密封容器和后续审计来模拟真实开发环境。
其评测维度分为 8 类:Intent fidelity、Product fit、Visual craft、Convention adherence、Pathway completeness、Content & language、Resilience、Accessibility。特别有价值的是 Product fit 与 Convention adherence:代理必须读懂现有应用的抽屉、命名、设计 token、数据持久化等本地规则,而不是在空白画布上生成看似合理的 UI。评分由 scoring agent、axe-core/structural-diff 等脚本检查、自动导航截图和独立 auditor 共同完成;公开场景基于 Inspect AI,可重复运行。
页面未披露价格、套餐、付款方式或 SLA,只提供 private PX-bench eval 的联系入口和 [email protected]。PX-bench 本身是否开源未说明;但其 harness 使用开源 Inspect AI。宿主应用和正式 scored scenarios 保持 held-out 并轮换,这有利于防止模型记忆基准,但也意味着外部难以完全复核私有评测。
优点是方法论严谨,评测贴近真实产品迭代,能发现 happy path demo 难以暴露的空态、错误态、长内容、移动端和可访问性问题;报告可分项解释,适合 Agent 研发迭代。缺点是当前信息更像评测方法论文,缺少 API、SDK、接入指南、CI 集成、样例报告和价格细节,普通团队的试用门槛不明。
它更适合 AI 编码代理厂商、模型评测团队和有成熟前端产品体验标准的研发组织,用于比较模型版本、验证降本提速是否牺牲体验。中国访问情况正文无证据,暂记未知;支付方式也未披露。若无法接入,可用 Inspect AI、Playwright、axe-core 加人工设计评审搭建内部替代基准。
本测评基于公开资料整理,不构成购买建议,请以 chordio.com 官网实际信息为准。
真实页面捕获+Claude Code原型,出海产品人可关注。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。