无服务器网页采集框架
各维度得分依据公开资料与字段推算,加权后即综合评分,仅供参考。
Locust 是一个面向 Node.js 的 Serverless 网页发现与数据抽取框架,核心场景包括 Web indexing、Web crawling 和 Web scraping。它不是简单的单机爬虫脚本库,而是围绕 Redis 队列、Chrome/Puppeteer 页面执行和可扩展启动机制设计,适合把爬取任务拆成多个独立 job 分布式运行。
它采用配置驱动方式定义任务,开发者描述入口 URL、抽取逻辑、并发限制、深度限制、过滤规则和连接配置。数据抽取支持 CSS selector,并提供 extract、before、after、beforeAll、start、filter 等钩子。对 SPA 的支持是亮点之一,可等待页面元素出现,并处理 AngularJS、React、Vue.js 等前端应用。执行层依赖 Redis 维护 queued、processing、done 等状态,依赖 Chrome/Puppeteer 发起请求和执行客户端 JavaScript。
Locust 可在本地系统进程、Node.js 进程、AWS Lambda、Google Cloud Functions 等环境中运行,只要通过 start 钩子定义如何启动新任务即可。本地开发建议配合 Docker Compose 启动 Redis 与 browserless/Chrome。它提供 Node.js API,例如 execute(jobDefinition),也有 locust-cli,支持 run、start、stop、generate、validate、info 等命令。不过文档明确提示 CLI 属于 alpha-grade,生产使用需谨慎评估。
正文未提到商业定价,也未明确列出许可证。项目可通过 npm 安装 @achannarasappa/locust 和 @achannarasappa/locust-cli,且文档提到 GitHub issue,因此更像开源开发者工具,但是否可商用仍需核验仓库许可证。
优点是架构清晰、可分布式扩展、能处理客户端渲染页面,并且 API、CLI、生命周期和架构文档覆盖较完整。缺点是依赖 Redis 与 Chrome,部署复杂度高;没有内置持久化,采集结果需在 after 钩子中自行写入数据库;文档更新时间集中在 2019-2020 年,维护活跃度需要确认。它适合熟悉 Node.js、需要构建定制化分布式爬虫或 Serverless 采集系统的开发者,不太适合只想快速抓几个静态页面的非工程用户。
正文未提供中国大陆访问、镜像、支付或托管服务信息,判断为未知。若 npm 或相关镜像访问受限,可考虑 npm 镜像源。替代方案包括 Scrapy、Puppeteer、Playwright、Crawlee 和 Apify SDK。
本测评基于公开资料整理,不构成购买建议,请以 locust.dev 官网实际信息为准。
开源/开发者向数据发现与抽取框架,有技术参考价值。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。