检测LLM无依据自信
各维度得分依据公开资料与字段推算,加权后即综合评分,仅供参考。
Kateryna.ai 是一款专为检索增强生成(RAG)流水线设计的开源大语言模型认知不确定性检测工具,核心目标是捕获大模型在RAG场景下仍然生成的幻觉内容。项目基于1958年Setun计算机的三元逻辑原理开发,以地址编程先驱Kateryna Yushchenko命名,核心功能开源(MIT许可证),开发团队位于新西兰。
传统的大模型不确定性检测仅能区分「自信」和「不自信」两类输出,Kateryna创新性引入了三元分类体系:+1为有检索证据支撑的可信输出、0为不确定输出(允许大模型回复「我不知道」)、-1为无证据支撑的自信输出,也就是最危险的幻觉场景——当RAG检索不到相关内容,但大模型仍然自信地编造答案时,Kateryna可以精准捕获这类问题。
核心功能全部开源,包括三元状态检测、适配OpenAI/Anthropic/Ollama的大模型适配器、兼容任意向量库的RAG置信度评分、输出语言不确定性分析。尚未推出的付费Pro版本还将提供合规审计日志、幻觉分析看板、垂直领域检测包、自定义阈值校准、检索块冲突检测、知识库预扫描等企业级功能。
根据开发团队的公开测试,在7个容易引发幻觉的测试查询中,大模型编造了5个答案,Kateryna成功将所有5个错误答案标记为无依据的-1类,整体检测准确率达到78%,支持强RAG、弱RAG、无RAG多种场景。工具集成非常简单,可直接通过pip install kateryna安装,适配现有开发栈。
目前Kateryna所有核心功能完全免费开源,没有使用限制。Kateryna Pro企业版尚未正式推出,目前开放排队预约,包含SOC2合规日志、优先支持、定制集成、SLA保障等权益,有即时企业需求可单独联系开发团队。
优势方面,它精准解决了RAG架构遗留的幻觉痛点,分类逻辑比传统方案更贴合实际场景,核心功能开箱即用,开源许可宽松,允许商业自由使用。缺点则是企业级功能尚未上线,目前仅核心功能可用,且仅针对RAG场景设计,原生无RAG的大模型应用无法使用。
当前没有公开可验证的中国大陆访问信息,核心代码可通过GitHub和PyPI获取。该工具适合所有搭建RAG应用的开发团队、对AI生成内容合规性有要求的企业,以及法律、医疗、金融等对幻觉容忍度低的垂直领域AI项目。
本测评基于公开资料整理,不构成购买建议,请以 kateryna.ai 官网实际信息为准。
开源/PyPI工具,适合RAG与AI评测场景。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。