蛋白质结构分类数据库
cathdb.info 是一个由英国伦敦大学学院(UCL)等机构维护的免费蛋白质结构分类数据库,专门用于对已知蛋白质三维结构进行进化域级别的层次分类。它面向全球生物信息学与结构生物学研究者,提供手动验证的结构域注释和分类数据,是学术界公认的蛋白质结构分析参考标准之一。
CATH 数据库的全称是 Class, Architecture, Topology, Homologous superfamily,即根据蛋白质结构域的四个主要层次进行分类。该项目始于1990年代,由 UCL 的 Orengo 团队主导,至今已有超过30年的历史,是结构生物信息学领域的老牌数据库。它与其他大型结构数据库(如 SCOP、PDB)互补,但 CATH 强调半自动化的手动校验流程,分类精度较高。主要服务对象包括高校实验室、药物研发机构、以及从事蛋白质功能预测和进化研究的科研人员。该平台以免费开放为核心,不涉及商业化运营,因此没有付费订阅模式,也没有针对企业的增值服务。其数据通过网站、API 和 FTP 下载提供,适合用于教学、科研和算法训练。
CATH 最适合结构生物学、计算生物学和生物信息学领域的学术研究人员,尤其是需要高置信度结构域分类数据的团队。个人研究者可以通过网站直接查询单个蛋白质的域分类;实验室团队可以批量下载分类数据用于机器学习模型训练或大规模进化分析;开发者可以利用其 REST API 获取结构注释,整合到自己的分析管道中。由于该数据库完全免费且无需注册,它也适合作为本科或研究生生物信息学课程的教学工具。但需要明确的是,它不适合非科研用途或对实时更新有高要求的商业应用,因为其数据更新频率低于 PDB 主库,且不提供商业技术支持。
CATH 数据库目前完全免费,没有任何付费套餐或订阅选项。其运营经费主要来自英国研究理事会等公共资金支持,因此对用户而言零成本。在同类产品中,SCOP 和 SCOP2 同样免费,而一些商业结构分析平台(如 Schrodinger 的 BioLuminate)则按年收费数千美元。CATH 的性价比极高,但需要注意:免费意味着没有客服支持、无服务等级协议(SLA),且数据更新频率受限于学术项目周期。如果用户需要实时更新的商业级结构分类,可能需要考虑其他付费方案。
CATH 数据库对国内用户非常友好。其主站 cathdb.info 在中国大陆可以直接访问,无需任何科学上网工具。网站加载速度尚可,但大规模 FTP 下载可能受限于国际带宽,建议使用科研机构的海外镜像或通过代理加速。支付方面,由于没有任何付费环节,无需信用卡或支付宝等支付方式。发票方面,由于平台完全免费且非商业实体,无法开具任何形式的发票。国内类似资源有中科院上海生命科学研究院维护的 PDB China 镜像,但后者主要提供结构数据存储,而非分类注释。如果以教学或基础科研为目的,CATH 是足够可靠的选择。
优点:
缺点:
CATH 数据库非常适合学术科研场景,尤其是需要高质量结构域分类数据用于进化分析、功能注释或机器学习训练的研究者。如果用户是高校师生或非盈利机构成员,且不要求实时更新,那么直接免费使用即可,无需任何付费。不适合需要商业级支持、实时数据更新或发票报销的企业用户,后者应考虑商业结构分析平台或使用 ECOD 等自动化数据库。建议新用户先从网站搜索单个 PDB ID 体验分类结果,再通过 FTP 下载完整数据集进行本地分析。总体而言,这是一款零成本、高可靠性的学术利器。
⚠ 本测评基于公开资料整理, 不构成购买建议. 请以 cathdb.info 官网实际信息为准.
cathdb.info 是一家 英国 的 教育课程 (Bioinformatics Database) 服务商. TG4G 测评收录其 套餐「蛋白质结构分类数据库」, 综合评分 8.0/10, 中国可用度 友好. 点击「前往官网」可直达 cathdb.info 官方页面.