网络安全AI训练数据集
HQData 是瑞士 St. Gallen 的安全 AI 数据集供应商。其首个公开产品 CTF-ZD-001 Security Reasoning Corpus 面向训练和评估 cyber-capable models,定位不是教程或普通 writeup 汇编,而是将真实安全问题中的漏洞判断、工具选择、失败路径和决策链结构化为可训练语料。
该语料库包含 10k+ 条 offensive security records,交付格式为 SQLite 与 JSONL,可用于 fine-tuning、evals 和 tool-use workflows。字段包括 challenge_id、event_name、category、difficulty、description、binary_info、vulnerability、technique_chain、tools_used、solve_steps、failed_hypotheses、decision_trace、exploit_code、flag、quality_score 等。覆盖 pwn、web、crypto、reverse、forensics、kernel、blockchain、stego、osint、hardware 等方向。其突出点是保留失败假设与分支决策,这类信号通常在公开 writeup 中缺失。
Founding release 的 Research 版价格为 USD 1,990 起,面向单一学术机构,限定非商业训练,包含 SQLite 与 JSONL 全格式、30 天 schema 支持和自助访问。商业与 OEM 授权未公开定价,需要通过邮件沟通使用范围、交付格式和许可,审核后通常一个工作日内提供签署许可与下载链接。
优点是 schema 清晰、质量流程完整,包含人工读取、去重、溯源、质量评分和结构化增强,适合直接进入训练或评测流水线。局限是当前仅显示一个数据集上线,商业价格与支付方式不透明;语料以 CTF 和可控安全问题为主要基底,与真实企业攻防环境可能存在分布差异;也未披露独立模型性能提升基准。
它适合安全大模型团队、AI-native 安全创业公司、评测团队、研究实验室和希望构建 cyber-agent 能力的厂商。普通安全学习者或预算有限团队可能更适合公开 CTF writeup、自建语料或内部红队知识库。中国大陆访问与支付可用性正文未说明,网络状态评为未知;若采购,建议先索取 sample pack、license 条款和数据合规说明。
本测评基于公开资料整理,不构成购买建议,请以 hqdata.com 官网实际信息为准。
面向安全模型训练,价格高但信息差明显。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。