S

🔧 开发工具 LLM网页复刻评测美国总部国内优化

site-bench.com

Name: site-bench.com - 评测AI复刻网页效果
Brand: site-bench.com
Rating: 7.0 (1 reviews)

评测AI复刻网页效果

7.0/10 中国可用

TTG4G 编辑组 ·更新于 2026-06-08 ·数据来源: ai_crawl 评测方法 ↗

数据来源

ai_crawl · 最近更新 2026-06-08

行业深度解析AI 深度分析

一句话WcodeW 是一个用于衡量 LLM 从静态网页规格重建真实网页保真度的开源基准与可视化查看器。

定价开源免费正文显示源码采用 MIT 许可证，未提及商业定价、付费计划或托管服务收费。

适合谁LLM Agent 研究者、前端生成代码评测者、AI 编程工具开发者、需要比较网页复刻保真度的开发团队

核心功能使用 Playwright 封存真实网页的 DOM、可访问性树、网络响应和截图让 LLM Agent 基于静态 spec 生成单文件自包含 index.html按 visual、DOM、interaction、LLM-as-judge 四个维度加权评分提供 iframe、screenshot、diff、code 四种对比模式支持桌面与移动视口、三种滚动位置的矩阵化查看提供 CSV 与 JSON 指标导出MIT 开源、纯 HTML + ES modules + CSS、无构建依赖

功能与用途用于测量 LLM 在不访问 live URL 的情况下，依据静态网页规格重新实现真实网页的保真度。流程包括封存真实网页、给 agent 输入 spec、生成单文件 index.html、再通过截图/DOM/交互/LLM judge 等指标评分，并在 viewer 中进行并排、滑块、diff 和源码对比。

支持语言/框架抓取流程提到使用 Playwright；评分脚本路径包含 TypeScript 文件 pipeline/bin/wclone-score.ts、wclone-build-index.ts；前端 viewer 使用 plain HTML、ES modules 和共享 CSS。未提及支持特定前端框架。

开源还是闭源开源。正文明确写明 Source MIT-licensed at github.com/reacher-z/WcodeW。

自托管选项支持自托管/静态部署。正文说明 viewer 无依赖、无构建步骤，可离线运行并在 GitHub Pages 上工作；封存资源需本地可用，GitHub Pages 部署镜像会复制 sealed/assets/。

定价未提及商业定价。源码 MIT 许可证，按文本可判断为开源免费使用。

API/SDK未提供对外 API 或 SDK 信息。提供 CSV 下载 wclone-export.csv，以及 JSON 索引 wclone-seeds.json、wclone-diff-index.json、wclone-dom-index.json；新增评分需运行 pipeline/bin/wclone-score.ts 等脚本。

集成与生态集成 Playwright 作为页面捕获管线；可部署到 GitHub Pages；数据可导出到 spreadsheet 或 pandas 分析。未提及与 CI、GitHub Actions、主流 LLM 平台或云服务的正式集成。

文档质量正文对评测 loop、评分权重、视图模式、限制、新增 bundle/agent run、快捷键和数据导出均有说明，透明度较好。但新增数据集创建仅提示参见 annotator playbook，未在正文提供完整操作细节。

中国访问未知

适用场景评估不同 LLM Agent 的网页静态复刻能力；比较 agent 生成 HTML 与真实网页的视觉/DOM差异；构建网页生成模型的基准集；导出指标用于研究分析。

同类WebArena、VisualWebArena、BrowserGym、SWE-bench 中与浏览器/网页任务相关的评测工具；若仅做视觉回归可考虑 Playwright screenshot diff、Percy、Chromatic

性价比8

易用6

服务5

综合7

优点

评测流程设计清晰，覆盖截图、DOM、交互和语义判断等多个维度
可视化对比能力强，支持滑块、diff mask、源码并排查看和矩阵视图
开源且依赖较少，可离线运行并部署到 GitHub Pages
提供 CSV/JSON 导出，便于进一步分析
明确说明指标权重和局限，透明度较高

不足

定位是静态视觉复刻评测，不适合作为完整功能性网页替代验证
iframe 中 JavaScript 被 sandbox 关闭，无法评估 JS 驱动的动态效果
diff 百分比为简单像素阈值，可能受 1 像素偏移放大影响
新增 bundle 或 agent run 需要手动放置文件并运行脚本，流程偏工程化
正文未提供托管服务、账号体系、支付和技术支持信息

深度测评

TG4G · 2026-06-08 更新 · 仅供参考

是什么

WcodeW 是一个“web → code → web”闭环基准与查看器，用来衡量 LLM Agent 在不能访问真实 URL 的前提下，仅依据静态规格重新实现真实网页的保真度。它先用 Playwright 封存真实页面，再让 agent 生成单文件自包含 index.html，最后将生成结果与封存快照逐项比较。

核心能力

其评测覆盖 visual、DOM、interaction、agentic judge 四个主维度：视觉 SSIM 权重 50%，DOM 相似度 30%，交互执行与后状态匹配 5%，LLM 语义判断 15%。查看器还提供 per-pixel diff 百分比，便于快速定位肉眼可见差异。前端支持 iframe、screenshot、diff、code 四种模式，可用滑块、矩阵视图和 gallery 浏览不同 bundle、视口与滚动步骤。

技术与生态

项目使用 Playwright 抓取 DOM、可访问性树、网络响应和截图；viewer 由纯 HTML、ES modules 与 CSS 构成，无构建依赖，可离线运行，也可部署到 GitHub Pages。数据层提供 wclone-export.csv 以及多个 JSON 索引，适合导入 spreadsheet 或 pandas 做二次分析。源码以 MIT 协议发布在 GitHub，具备自托管基础。

定价与文档

正文未出现商业定价或付费计划，按 MIT 开源项目理解可免费使用。说明文档对评分权重、视图模式、局限、快捷键和数据导出解释较清楚；但新增 bundle 或 agent run 需要按目录放置 HTML 并运行脚本，且 bundle 创建细节只引用 annotator playbook，整体仍偏研究工程工具。

优缺点与适合谁

优点是评测流程透明、可视化对比强、指标导出友好、部署简单。局限也很明确：它评估的是静态视觉复刻，不是可直接上线的功能替代；iframe 中 JS 被 sandbox 关闭，无法覆盖复杂动态效果；像素 diff 对微小偏移较敏感。适合 LLM Agent 研究者、AI 编程工具团队和网页生成模型评测者。

中国访问

正文未提供国内网络、镜像、支付或服务支持信息，站点访问情况只能标为未知。若 GitHub 访问不稳定，自托管静态文件可能更可靠；替代方向可关注 WebArena、VisualWebArena、BrowserGym，视觉回归场景则可用 Playwright screenshot diff、Percy 或 Chromatic。

本测评基于公开资料整理,不构成购买建议,请以 site-bench.com 官网实际信息为准。

中文卖点

面向AI Agent和前端评测，信息差较强。

官网快照

/shot/site-bench-com.png

site-bench.com

S

site-bench.com

快照生成中 · 后端每周自动抓取官网首页

价格走势

当前价 · 仅供参考

价格未公开当前定价

价格采集自官网公开页面,实时更新;历史走势数据采集中,暂无足够历史样本。下单请以官网实时价为准。

用户评价

综合评分

7.0/10

TG4G 综合评分

评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。

常见问题

site-bench.com 是一家美国的开发工具 (LLM网页复刻评测)服务商. 本页收录其「评测AI复刻网页效果」套餐. 面向AI Agent和前端评测，信息差较强.

site-bench.com 在中国大陆有较好的直连体验, 多数地区无需代理即可访问. 该商家总部位于美国, 主要面向海外市场.

访问 site-bench.com 官网完成注册即可使用. 注册一般需要邮箱 (推荐 Gmail/Outlook) 和支付方式. 多数海外服务支持信用卡 / PayPal / 加密货币. 完整流程见本页"前往官网"按钮.

site-bench.com

深度测评

是什么

核心能力

技术与生态

定价与文档

优缺点与适合谁

中国访问

中文卖点

官网快照

价格走势

用户评价

常见问题

浏览其他大类