评测AI复刻网页效果
WcodeW 是一个“web → code → web”闭环基准与查看器,用来衡量 LLM Agent 在不能访问真实 URL 的前提下,仅依据静态规格重新实现真实网页的保真度。它先用 Playwright 封存真实页面,再让 agent 生成单文件自包含 index.html,最后将生成结果与封存快照逐项比较。
其评测覆盖 visual、DOM、interaction、agentic judge 四个主维度:视觉 SSIM 权重 50%,DOM 相似度 30%,交互执行与后状态匹配 5%,LLM 语义判断 15%。查看器还提供 per-pixel diff 百分比,便于快速定位肉眼可见差异。前端支持 iframe、screenshot、diff、code 四种模式,可用滑块、矩阵视图和 gallery 浏览不同 bundle、视口与滚动步骤。
项目使用 Playwright 抓取 DOM、可访问性树、网络响应和截图;viewer 由纯 HTML、ES modules 与 CSS 构成,无构建依赖,可离线运行,也可部署到 GitHub Pages。数据层提供 wclone-export.csv 以及多个 JSON 索引,适合导入 spreadsheet 或 pandas 做二次分析。源码以 MIT 协议发布在 GitHub,具备自托管基础。
正文未出现商业定价或付费计划,按 MIT 开源项目理解可免费使用。说明文档对评分权重、视图模式、局限、快捷键和数据导出解释较清楚;但新增 bundle 或 agent run 需要按目录放置 HTML 并运行脚本,且 bundle 创建细节只引用 annotator playbook,整体仍偏研究工程工具。
优点是评测流程透明、可视化对比强、指标导出友好、部署简单。局限也很明确:它评估的是静态视觉复刻,不是可直接上线的功能替代;iframe 中 JS 被 sandbox 关闭,无法覆盖复杂动态效果;像素 diff 对微小偏移较敏感。适合 LLM Agent 研究者、AI 编程工具团队和网页生成模型评测者。
正文未提供国内网络、镜像、支付或服务支持信息,站点访问情况只能标为未知。若 GitHub 访问不稳定,自托管静态文件可能更可靠;替代方向可关注 WebArena、VisualWebArena、BrowserGym,视觉回归场景则可用 Playwright screenshot diff、Percy 或 Chromatic。
本测评基于公开资料整理,不构成购买建议,请以 site-bench.com 官网实际信息为准。
面向AI Agent和前端评测,信息差较强。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。