哈佛USPTO专利数据集
各维度得分依据公开资料与字段推算,加权后即综合评分,仅供参考。
HUPD(Harvard USPTO Patent Dataset)是一个由斯坦福、牛津、哈佛等研究者发布的美国 USPTO 英文实用专利申请数据集。根据页面说明,它覆盖 2004 年 1 月至 2014 年 12 月提交到 USPTO 的英文 utility patent applications,定位为“大规模、结构化、多用途”语料库。它更像研究数据基础设施,而非传统 SaaS 开发者工具。
从功能与用途看,HUPD 适合专利文本 NLP、机器学习建模、专利分类、检索、摘要生成、法律技术文本分析等场景。页面提供论文、GitHub Codebase、数据集下载和 Google Colab Notebooks,说明其重视可复现研究和实验上手。支持语言方面,数据本身是英文;抓取内容未说明专门支持 Python、PyTorch、TensorFlow 等框架,也未披露 API 或 SDK。
页面可查看 GitHub 代码库并下载数据集,因此开发者应能在本地或自有计算环境中使用,具备事实上的自托管可行性。但正文没有明确开源许可证、数据许可证、字段定义、数据规模、版本更新策略或商用限制。文档质量方面,论文与 Colab 对研究者很有帮助,但仅从抓取文本看,工程化文档和数据治理信息仍不充分。
正文没有任何收费、订阅或企业版描述,提供“Download the Dataset”,可视为免费/开放下载型资源,但具体许可仍需以实际下载页为准。中国访问情况无法仅凭文本判断;GitHub、Google Colab 在中国大陆可能存在网络不稳定或访问受限,因此实际使用可能需要替代下载源或代理环境。支付方式无信息。
优点是数据来源权威、时间范围明确、研究材料配套较好,适合高校、实验室、NLP 工程师和专利分析团队。缺点是覆盖时间止于 2014 年,地域限于美国英文实用专利申请,且缺少 API、商业支持和许可细节。若需要持续更新、可视化检索或生产级接口,可对比 USPTO bulk data、Google Patents Public Datasets、PatentsView、The Lens 等替代方案。
本测评基于公开资料整理,不构成购买建议,请以 patentdataset.org 官网实际信息为准。
适合做专利NLP、检索和AI训练研究。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。