海外资源测评导航
返回开发工具 海外资源 / 开发工具 / PDF结构化数据规范 / pdf.cx
P
🔧 开发工具 PDF结构化数据规范 未知总部 国内优化

pdf.cx

PDF结构化数据开源规范

6.0/10 中国可用
TTG4G 编辑组 ·更新于 2026-06-08 ·数据来源: ai_crawl 评测方法 ↗
数据来源
ai_crawl · 最近更新 2026-06-08
行业深度解析AI 深度分析
一句话pdfcx 是一个开放的 PDF 结构化数据附加规范,主张在 PDF 内嵌或引用规范化数据记录,减少 OCR 与解析猜测。
定价免费/开放规范 正文称“One attachment. No fee. No vendor. No roadmap.”,未提及商业定价。
适合谁PDF 生成方、企业文档系统、开发者、AI Agent/文档读取工具、无障碍工具、需要可靠读取发票/报表/表格等结构化数据的组织
核心功能在 PDF 中附加一个 /Desc 为 pdf-canonical-extraction 的文件支持通过 PDF 附件嵌入结构化数据或通过 URL 引用结构化数据格式包括 JSON、Parquet、SQLite用于避免 OCR、表格检测和启发式解析提供 Demo 用于检测 PDF 是否携带 pdfcx 记录维护采用者列表和误导性实现警示列表
功能与用途pdfcx 提出“pdf-canonical-extraction”规范:在 PDF 内嵌一个结构化数据记录,或通过 URL 引用该记录,让文档同时保留人类可读视图与机器可读真值,减少 OCR、机器学习解析和表格检测带来的误差。
支持语言/框架正文未提及具体编程语言或框架。其数据格式提到 JSON、Parquet、SQLite。
开源还是闭源描述为 Open spec,且称“No fee. No vendor.”;未看到代码许可证或实现仓库信息。
自托管选项规范本身不涉及托管。传输方式支持嵌入 PDF 附件或以 URL 引用;未提及自托管产品。
定价未设置费用,正文明确称 No fee。
API/SDK正文提到有一个给 coding agents 的 skill file,但未提供 API、SDK 或接口细节。
集成与生态基于 PDF 附件能力;可与 AI Agent、无障碍工具、文档阅读器和业务系统结合。页面还提到采用者 roster 与 misrepresentation warn list,但正文中未列出具体采用者。
文档质量文档表达清晰、理念明确,核心规范被压缩为一句话,易理解;但工程细节、校验机制、版本管理、安全认证、示例和兼容性说明不足。
中国访问未知
适用场景发票对账、税务申报、财务报表读取、实验报告摘要、表单填充、法律文档检索、无障碍阅读、AI Agent 文档处理
同类OCR/文档解析工具、PDF 表格抽取工具、ZUGFeRD/Factur-X、Inline XBRL、PDF/A-3 嵌入结构化数据方案
性价比8
易用7
服务4
综合7
优点
  • 规范极简,采用门槛低
  • 不绑定供应商且无费用
  • 直接利用 PDF 自 1999 年起支持的文件附件能力
  • 有助于提升 AI Agent、无障碍工具和自动化流程读取准确性
  • 兼容 PDF 作为人类可读记录的定位
不足
  • 目前更像倡议和开放规范,未看到成熟产品、SDK 或托管服务信息
  • 采用效果依赖 PDF 生成方主动嵌入真实结构化数据
  • 存在人类视图与附加数据不一致的治理风险
  • 未提供安全、认证、版本治理、校验机制等详细实现说明
  • 文档信息较短,开发落地细节不足

深度测评

TG4G · 2026-06-08 更新 · 仅供参考

是什么

pdfcx,即 pdf-canonical-extraction,是一个面向 PDF 的开放规范倡议。它并不试图取代 PDF,而是主张在 PDF 中附加一个结构化数据文件,或通过 URL 引用该数据,让 PDF 同时拥有面向人类的页面视图和面向机器的“结构化真值”。页面明确指出,当前企业一边把结构化数据生成 PDF,另一边又通过 OCR、机器学习和启发式解析把数据取回,中间损失准确性,pdfcx 试图从源头减少这种浪费。

核心能力

规范本身非常极简:给 PDF 附加一个文件,其 /Desc 为 pdf-canonical-extraction。正文提到支持 JSON、Parquet、SQLite 三种数据格式,传输方式可以是嵌入式附件,也可以是 URL 引用。它的核心用途包括表格、表单、财务报表、发票、实验报告等场景的机器读取,尤其面向 AI Agent 和无障碍工具,避免 OCR、表格识别和脚注丢失等问题。

定价与开放性

页面称“One attachment. No fee. No vendor. No roadmap.”,因此它不是按量收费的商业产品,而更接近一个免费开放规范。正文也称其为 Open spec。但页面没有提供许可证、参考实现仓库、SDK、API 或正式治理流程,因此不能简单等同于成熟开源项目。

优缺点

优点是思路直接、实现门槛低,并复用 PDF 自 1999 年以来已有的附件能力,不需要改变 PDF 的人类阅读属性。若由 PDF 生成方主动支持,可显著提升自动化读取和 AI 工作流的准确率。缺点是成败高度依赖生态采用:如果文档生成方不嵌入数据,读取方仍需回到传统解析;如果人类视图和附加数据不一致,还会引发信任风险。页面虽提到会维护误导性实现名单,但缺少更完整的校验和认证机制。

适合谁与中国访问

它适合 PDF 生成工具、发票/财报/表单系统、文档自动化平台、AI Agent 工具和无障碍阅读器关注。中国访问情况正文未提及,实际可用性未知;支付不是问题,因为规范本身无费用。可替代或相关方案包括传统 OCR/文档解析、ZUGFeRD/Factur-X、Inline XBRL 以及 PDF/A-3 嵌入结构化数据方案。

本测评基于公开资料整理,不构成购买建议,请以 pdf.cx 官网实际信息为准。

中文卖点

偏开发者和标准化探索,无商业模式。

官网快照

/shot/pdf-cx.png
pdf.cx

价格走势

当前价 · 仅供参考
价格未公开 当前定价
价格采集自官网公开页面,实时更新;历史走势数据采集中,暂无足够历史样本。下单请以官网实时价为准。

用户评价

综合评分
6.0/10
TG4G 综合评分

评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。

常见问题

pdf.cx 是一家未知的开发工具 (PDF结构化数据规范)服务商. 本页收录其「PDF结构化数据开源规范」套餐. 偏开发者和标准化探索,无商业模式.
pdf.cx 在中国大陆有较好的直连体验, 多数地区无需代理即可访问. 该商家总部位于未知, 主要面向海外市场.
访问 pdf.cx 官网完成注册即可使用. 注册一般需要邮箱 (推荐 Gmail/Outlook) 和支付方式. 多数海外服务支持信用卡 / PayPal / 加密货币. 完整流程见本页"前往官网"按钮.

浏览其他大类