SPA递归爬虫工具
各维度得分依据公开资料与字段推算,加权后即综合评分,仅供参考。
htcrawl(官网域名 htcrawl.org)是一款开源 Node.js 模块,核心定位是专为单页应用(SPA)设计的递归爬虫工具,它基于 Google Puppeteer 开发,依赖无头 Chrome 加载执行页面 JavaScript,因此天然继承了 Puppeteer 的全部功能,还可以在此基础上实现针对动态页面的深度爬取。该项目由 Filippo Cavallarin 开发,是另一款开源漏洞扫描器 htcap 的底层依赖项目,遵循 GNU GPL v2 及更新版本协议开源。
不同于传统静态爬虫无法处理 SPA 的动态 DOM 更新,htcrawl 的核心能力就是递归遍历单页应用的所有可访问状态,支持开发者通过事件钩子自定义爬取逻辑。
从官方给出的示例来看,它的适用场景非常丰富:仅用不到 60 行 JavaScript 即可搭建出自定义 DOM-XSS 扫描器,也可以用来做 SPA 高级内容爬取(比如示例中的全页面邮箱提取爬虫),还可以拦截记录页面发出的所有请求(包括异步 XHR 请求),用来开发安全漏洞检测工具,或是做前端 UI、JavaScript 逻辑自动化测试。
安装方式非常简单,既可以通过 npm i htcrawl 直接安装,也可以克隆 GitHub 源码(https://github.com/fcavallarin/htcrawl.git)本地构建。官网还提供了完整的 API 参考文档、爬流流程图和演示视频,方便开发者快速上手。
优点方面,htcrawl 完全免费开源,允许自由修改和分发,针对性解决了普通爬虫爬不动动态 SPA 的痛点,基于 Puppeteer 的底层架构稳定可靠,扩展性极强,官方提供的可运行示例降低了二次开发的门槛,不管是做安全研究还是业务爬虫都能快速适配。
缺点也比较明显:它是纯 Node.js 模块,没有可视化操作界面,需要开发者有一定的编程基础,环境需要配置 Node.js 和 Puppeteer 依赖,对非技术用户不友好;目前官方没有提供分布式爬取支持,仅适合中小型爬取任务;同时项目只有英文文档,对国内开发者学习有一定门槛。
htcrawl.org 官网目前在中国可以直接访问,源码托管在 GitHub 也可正常克隆下载。它适合 Web 安全研究员、Node.js 开发者、前端自动化测试工程师使用,如果您需要爬取动态单页应用,或是开发自定义漏洞扫描工具,htcrawl 是非常合适的底层基础工具。
本测评基于公开资料整理,不构成购买建议,请以 htcrawl.org 官网实际信息为准。
Node.js/Puppeteer爬取SPA项目,偏开源工具。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。