PDF结构化数据开源规范
pdfcx,即 pdf-canonical-extraction,是一个面向 PDF 的开放规范倡议。它并不试图取代 PDF,而是主张在 PDF 中附加一个结构化数据文件,或通过 URL 引用该数据,让 PDF 同时拥有面向人类的页面视图和面向机器的“结构化真值”。页面明确指出,当前企业一边把结构化数据生成 PDF,另一边又通过 OCR、机器学习和启发式解析把数据取回,中间损失准确性,pdfcx 试图从源头减少这种浪费。
规范本身非常极简:给 PDF 附加一个文件,其 /Desc 为 pdf-canonical-extraction。正文提到支持 JSON、Parquet、SQLite 三种数据格式,传输方式可以是嵌入式附件,也可以是 URL 引用。它的核心用途包括表格、表单、财务报表、发票、实验报告等场景的机器读取,尤其面向 AI Agent 和无障碍工具,避免 OCR、表格识别和脚注丢失等问题。
页面称“One attachment. No fee. No vendor. No roadmap.”,因此它不是按量收费的商业产品,而更接近一个免费开放规范。正文也称其为 Open spec。但页面没有提供许可证、参考实现仓库、SDK、API 或正式治理流程,因此不能简单等同于成熟开源项目。
优点是思路直接、实现门槛低,并复用 PDF 自 1999 年以来已有的附件能力,不需要改变 PDF 的人类阅读属性。若由 PDF 生成方主动支持,可显著提升自动化读取和 AI 工作流的准确率。缺点是成败高度依赖生态采用:如果文档生成方不嵌入数据,读取方仍需回到传统解析;如果人类视图和附加数据不一致,还会引发信任风险。页面虽提到会维护误导性实现名单,但缺少更完整的校验和认证机制。
它适合 PDF 生成工具、发票/财报/表单系统、文档自动化平台、AI Agent 工具和无障碍阅读器关注。中国访问情况正文未提及,实际可用性未知;支付不是问题,因为规范本身无费用。可替代或相关方案包括传统 OCR/文档解析、ZUGFeRD/Factur-X、Inline XBRL 以及 PDF/A-3 嵌入结构化数据方案。
本测评基于公开资料整理,不构成购买建议,请以 pdf.cx 官网实际信息为准。
偏开发者和标准化探索,无商业模式。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。