开放网页首页归档
RootCrawl 是一个开放 Web 首页归档项目,目标是保存“每个网站的 front door”。它只访问每个可达域名的根路径 /,压缩 HTML 响应并归档,供研究者分析网站入口页如何变化。它明确说明自己不是搜索引擎,不抓取子页面、商品、文章或媒体,因此定位更接近大规模首页样本库,而不是通用网页索引。
其范围非常克制:仅根路径、无深度抓取、按月刷新,原始 HTML 以 gzip 存储。索引字段包括 title、meta、headings、links、JSON-LD types 和 scripts,对研究网站结构、SEO 元信息、前端技术栈线索较有价值。对站长侧,RootCrawl 声称只发起一个首页请求,最多 3 次重定向、10 秒超时、全局限速,并遵守 robots.txt,可通过 User-agent: RootCrawl Disallow: / 退出。
数据获取分为单域名和批量镜像。/api/archive 下端点需要 API Key,可通过免费账号生成。API 覆盖 manifest、chunk URL 列表、单 chunk 文件清单、tar 流下载、单域名 HTML 或 metadata 查询。工具层面支持 curl、aria2c、wget,并提供 Node CLI,适合接入数据工程流水线。文档列出了端点和参数,但未看到错误码、限流具体数值、示例响应或 SDK 说明,工程化细节仍偏简略。
页面写明学术和研究用途免费,只要求引用并遵守速率限制。未披露商业使用政策、付费计划、支付方式、SLA 或客服支持。另一个明显限制是它永远不做深度抓取,因此不能用于完整网站备份、全文搜索、内容监控或媒体归档。
RootCrawl 适合学术研究者、互联网测量团队、开发者和数据工程师,用于分析首页变化、元数据、链接与脚本分布。若需要更完整网页语料,可对比 Common Crawl、Internet Archive;若想自建归档,可关注 ArchiveBox、Heritrix。中国大陆访问情况文本未说明,API、账号注册和大文件下载稳定性需实测。
本测评基于公开资料整理,不构成购买建议,请以 rootcrawl.org 官网实际信息为准。
提供开放网页索引,适合数据研究。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。