海外资源测评导航
返回开发工具 海外资源 / 开发工具 / LLM网页复刻评测 / site-bench.com
S
🔧 开发工具 LLM网页复刻评测 美国总部 国内优化

site-bench.com

评测AI复刻网页效果

7.0/10 中国可用
TTG4G 编辑组 ·更新于 2026-06-08 ·数据来源: ai_crawl 评测方法 ↗
数据来源
ai_crawl · 最近更新 2026-06-08
行业深度解析AI 深度分析
一句话WcodeW 是一个用于衡量 LLM 从静态网页规格重建真实网页保真度的开源基准与可视化查看器。
定价开源免费 正文显示源码采用 MIT 许可证,未提及商业定价、付费计划或托管服务收费。
适合谁LLM Agent 研究者、前端生成代码评测者、AI 编程工具开发者、需要比较网页复刻保真度的开发团队
核心功能使用 Playwright 封存真实网页的 DOM、可访问性树、网络响应和截图让 LLM Agent 基于静态 spec 生成单文件自包含 index.html按 visual、DOM、interaction、LLM-as-judge 四个维度加权评分提供 iframe、screenshot、diff、code 四种对比模式支持桌面与移动视口、三种滚动位置的矩阵化查看提供 CSV 与 JSON 指标导出MIT 开源、纯 HTML + ES modules + CSS、无构建依赖
功能与用途用于测量 LLM 在不访问 live URL 的情况下,依据静态网页规格重新实现真实网页的保真度。流程包括封存真实网页、给 agent 输入 spec、生成单文件 index.html、再通过截图/DOM/交互/LLM judge 等指标评分,并在 viewer 中进行并排、滑块、diff 和源码对比。
支持语言/框架抓取流程提到使用 Playwright;评分脚本路径包含 TypeScript 文件 pipeline/bin/wclone-score.ts、wclone-build-index.ts;前端 viewer 使用 plain HTML、ES modules 和共享 CSS。未提及支持特定前端框架。
开源还是闭源开源。正文明确写明 Source MIT-licensed at github.com/reacher-z/WcodeW。
自托管选项支持自托管/静态部署。正文说明 viewer 无依赖、无构建步骤,可离线运行并在 GitHub Pages 上工作;封存资源需本地可用,GitHub Pages 部署镜像会复制 sealed/assets/。
定价未提及商业定价。源码 MIT 许可证,按文本可判断为开源免费使用。
API/SDK未提供对外 API 或 SDK 信息。提供 CSV 下载 wclone-export.csv,以及 JSON 索引 wclone-seeds.json、wclone-diff-index.json、wclone-dom-index.json;新增评分需运行 pipeline/bin/wclone-score.ts 等脚本。
集成与生态集成 Playwright 作为页面捕获管线;可部署到 GitHub Pages;数据可导出到 spreadsheet 或 pandas 分析。未提及与 CI、GitHub Actions、主流 LLM 平台或云服务的正式集成。
文档质量正文对评测 loop、评分权重、视图模式、限制、新增 bundle/agent run、快捷键和数据导出均有说明,透明度较好。但新增数据集创建仅提示参见 annotator playbook,未在正文提供完整操作细节。
中国访问未知
适用场景评估不同 LLM Agent 的网页静态复刻能力;比较 agent 生成 HTML 与真实网页的视觉/DOM差异;构建网页生成模型的基准集;导出指标用于研究分析。
同类WebArena、VisualWebArena、BrowserGym、SWE-bench 中与浏览器/网页任务相关的评测工具;若仅做视觉回归可考虑 Playwright screenshot diff、Percy、Chromatic
性价比8
易用6
服务5
综合7
优点
  • 评测流程设计清晰,覆盖截图、DOM、交互和语义判断等多个维度
  • 可视化对比能力强,支持滑块、diff mask、源码并排查看和矩阵视图
  • 开源且依赖较少,可离线运行并部署到 GitHub Pages
  • 提供 CSV/JSON 导出,便于进一步分析
  • 明确说明指标权重和局限,透明度较高
不足
  • 定位是静态视觉复刻评测,不适合作为完整功能性网页替代验证
  • iframe 中 JavaScript 被 sandbox 关闭,无法评估 JS 驱动的动态效果
  • diff 百分比为简单像素阈值,可能受 1 像素偏移放大影响
  • 新增 bundle 或 agent run 需要手动放置文件并运行脚本,流程偏工程化
  • 正文未提供托管服务、账号体系、支付和技术支持信息

深度测评

TG4G · 2026-06-08 更新 · 仅供参考

是什么

WcodeW 是一个“web → code → web”闭环基准与查看器,用来衡量 LLM Agent 在不能访问真实 URL 的前提下,仅依据静态规格重新实现真实网页的保真度。它先用 Playwright 封存真实页面,再让 agent 生成单文件自包含 index.html,最后将生成结果与封存快照逐项比较。

核心能力

其评测覆盖 visual、DOM、interaction、agentic judge 四个主维度:视觉 SSIM 权重 50%,DOM 相似度 30%,交互执行与后状态匹配 5%,LLM 语义判断 15%。查看器还提供 per-pixel diff 百分比,便于快速定位肉眼可见差异。前端支持 iframe、screenshot、diff、code 四种模式,可用滑块、矩阵视图和 gallery 浏览不同 bundle、视口与滚动步骤。

技术与生态

项目使用 Playwright 抓取 DOM、可访问性树、网络响应和截图;viewer 由纯 HTML、ES modules 与 CSS 构成,无构建依赖,可离线运行,也可部署到 GitHub Pages。数据层提供 wclone-export.csv 以及多个 JSON 索引,适合导入 spreadsheet 或 pandas 做二次分析。源码以 MIT 协议发布在 GitHub,具备自托管基础。

定价与文档

正文未出现商业定价或付费计划,按 MIT 开源项目理解可免费使用。说明文档对评分权重、视图模式、局限、快捷键和数据导出解释较清楚;但新增 bundle 或 agent run 需要按目录放置 HTML 并运行脚本,且 bundle 创建细节只引用 annotator playbook,整体仍偏研究工程工具。

优缺点与适合谁

优点是评测流程透明、可视化对比强、指标导出友好、部署简单。局限也很明确:它评估的是静态视觉复刻,不是可直接上线的功能替代;iframe 中 JS 被 sandbox 关闭,无法覆盖复杂动态效果;像素 diff 对微小偏移较敏感。适合 LLM Agent 研究者、AI 编程工具团队和网页生成模型评测者。

中国访问

正文未提供国内网络、镜像、支付或服务支持信息,站点访问情况只能标为未知。若 GitHub 访问不稳定,自托管静态文件可能更可靠;替代方向可关注 WebArena、VisualWebArena、BrowserGym,视觉回归场景则可用 Playwright screenshot diff、Percy 或 Chromatic。

本测评基于公开资料整理,不构成购买建议,请以 site-bench.com 官网实际信息为准。

中文卖点

面向AI Agent和前端评测,信息差较强。

官网快照

/shot/site-bench-com.png
site-bench.com

价格走势

当前价 · 仅供参考
价格未公开 当前定价
价格采集自官网公开页面,实时更新;历史走势数据采集中,暂无足够历史样本。下单请以官网实时价为准。

用户评价

综合评分
7.0/10
TG4G 综合评分

评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。

常见问题

site-bench.com 是一家美国的开发工具 (LLM网页复刻评测)服务商. 本页收录其「评测AI复刻网页效果」套餐. 面向AI Agent和前端评测,信息差较强.
site-bench.com 在中国大陆有较好的直连体验, 多数地区无需代理即可访问. 该商家总部位于美国, 主要面向海外市场.
访问 site-bench.com 官网完成注册即可使用. 注册一般需要邮箱 (推荐 Gmail/Outlook) 和支付方式. 多数海外服务支持信用卡 / PayPal / 加密货币. 完整流程见本页"前往官网"按钮.

浏览其他大类