本地文件隐私脱敏
scrubfile 是一个面向个人身份信息(PII)清理的本地文档擦除工具。页面强调“100% Local”、无云 API、运行时无网络调用,并支持 CLI、Python API 与 JSON 输出。需要注意的是,首页称支持 PDF、图片、DOCX 与自动检测 PII,但详细文档又说明 Phase 1 仅支持 PDF 显式敏感词擦除,图片、DOCX、OCR、自动检测和 MCP Server 处于规划阶段,因此当前可验证能力应以 PDF 为主。
在防护类型上,它不是传统网关或终端安全产品,而是文档级数据脱敏工具。PDF 处理采用 PyMuPDF 搜索文本位置、添加 redaction annotation 并执行 apply_redactions,从内容流中删除文本,而非简单覆盖黑框;同时清理标准与 XMP 元数据,并以 garbage=3、deflate 保存。它还会把输出文件权限设为 0o600,并在 CLI/JSON 中用 [TERM-1] 形式隐藏原始 PII,降低日志泄露风险。SSN 与美国电话号码支持常见格式变体扩展,但姓名、邮箱、地址仍以精确匹配为主。
部署方式偏开发者友好:本地 Python 3.10+ 环境,通过 pip/GitHub 安装,提供 scrubfile 命令、Python redact() API 和机器可读 JSON 输出。管理与告警能力较轻量,主要是退出码、处理状态、脱敏次数、影响页数等结果,不具备集中策略管理、审计平台或告警联动。集成上适合脚本、批处理、CI/CD 或本地数据处理流水线;MCP Server 虽被宣传为 Agent-ready,但在路线图中仍显示为计划。
定价方面页面显示 Free,未披露商业版本或付费支持。合规认证未见说明。值得关注的是其依赖 PyMuPDF,文档标注 AGPL-3.0 许可证;私有本地使用不受限制,但若分发工具、二进制或网络服务,需要评估开源许可证合规风险。
优点是隐私边界清晰、运行离线、输出不回显敏感词,且 PDF 内容流永久删除比视觉遮盖更可靠。缺点是目前对扫描件、图片内文字、模糊匹配、非英文 PII 识别和互联网不可信输入处理支持有限。它更适合安全团队、法务/HR、数据工程师在本机批量清理 PDF;若需要企业级 DLP、中文 OCR、集中审计和策略治理,仍需考虑 Adobe Acrobat、Google DLP、Presidio 或中国本地 PDF/DLP/数据脱敏方案。中国访问与支付信息未披露,GitHub/PyPI 可用性可能受网络环境影响。
本测评基于公开资料整理,不构成购买建议,请以 scrubfile.com 官网实际信息为准。
本地运行脱敏PDF、图片、DOCX,适合隐私合规场景。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。