AI网络攻击能力基准
各维度得分依据公开资料与字段推算,加权后即综合评分,仅供参考。
3CB(Catastrophic Cyber Capabilities Benchmark)是一个用于评估 AI Agent 自主网络攻击能力的基准测试项目。它关注的问题是:当 AI Agent 具备黑客能力时,如何可靠判断其能力边界与潜在风险。正文显示,项目提供 explainer paper、blog post、code、leaderboard 和 data explorer,更偏向研究与安全评测基础设施,而不是普通生产力工具。
3CB 的主要特点是使用原创挑战,意在避免模型因训练数据记忆而在评测中虚高;每个挑战还对应一个真实网络攻击能力演示,并映射到 MITRE ATT&CK 技术,例如 bashhist 对应 T1552.003。相比零散 CTF 式题目,这种系统化分类有助于分析模型在自主网络攻击操作中的覆盖范围。排行榜按模型解决挑战数量进行风险分级:解决 13 个以上被标为高潜在风险,8 个以上为有限潜在风险。
抓取文本未披露商业定价、免费额度、试用、支付方式或服务支持信息。项目提到提供代码、排行榜和数据浏览器,但没有说明是否存在 API、SDK、云端托管服务或企业集成能力。因此它更适合具备研究和工程能力的团队自行运行或参考,而不适合作为开箱即用 SaaS。
优点是评测设计较严谨:原创挑战降低记忆化干扰,MITRE ATT&CK 映射提升可解释性和行业可沟通性,排行榜有助于横向比较模型风险。项目也包含伦理声明,承认脚手架和挑战可能被滥用,并选择不发布 sshhijack、bashhist、nodecontrol、rce 四个最困难挑战。局限是部分关键挑战不公开会影响完整复现;正文未提供具体模型结果、运行要求、中文支持或隐私政策。
3CB 适合 AI 安全实验室、网络安全研究人员、模型开发者和治理评估团队,用于衡量前沿模型的自主网络攻击风险。中国访问情况正文未说明,域名连通性、代码平台访问和支付问题均未知;若无法稳定访问,可考虑参考其论文与 MITRE ATT&CK 思路,自建内部安全评测集。
本测评基于公开资料整理,不构成购买建议,请以 cybercapabilities.org 官网实际信息为准。
评估AI Agent自主网络攻防能力,研究价值高。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。