AI失效行为研究
各维度得分依据公开资料与字段推算,加权后即综合评分,仅供参考。
Unknown Behavior, LLC 是一家独立研究组织,关注 AI 与决策系统在不确定性下的行为,尤其研究系统如何失效、适应并越过原本边界。官网显示其重点在医疗 AI,同时也开发可跨行业使用的自治 AI 运行时控制基础设施,定位更接近“应用研究 + 原型工具 + 咨询项目”,而不是成熟 SaaS 平台。
其项目覆盖医疗分诊、人口健康外联和 Agent 安全控制。Symptom Triage 支持一句话症状和可选图片输入,将自然语言转换为结构化结果,包括涉及的身体系统、可能原因、红旗信号和医生可能追问的问题;v1 使用 Qwen2.5-1.5B LoRA 微调,v2 使用 Claude Sonnet 4.6 vision。Care Gap Engine 面向 HEDIS 或价值医疗合同,基于合成患者面板和规则评分排序外联优先级,并用 Claude 生成个性化信息。Sentra 与 Cortex 是更偏基础设施的部分:前者在 Agent 工具执行前做确定性策略检查和累计风险控制,后者用双 LLM 对输出进行规则压力测试,失败则返回结构化反馈或阻断。
官网没有披露免费额度、试用政策、标准套餐、API 价格或支付方式。集成方面只看到 Demo、源码、SQL、Tableau、Streamlit、Claude prompt caching 等线索,以及 Sentra 作为 Agent 决策和工具调用之间的控制层,声称模型无关。对于采购方而言,仍需进一步确认部署方式、API 文档、权限控制、SLA 和支持边界。
优点是选题明确,聚焦医疗等高风险场景,强调结构化输出、规则验证和运行时拦截,而不是单纯依赖模型准确率。官网还给出医疗运营案例,如诊所 intake 流程改造后等待时间下降 50%、no-show 下降 40%,以及多供应商交易对账中错配下降 25%。不足是商业成熟度信息有限,缺少隐私合规、临床验证、生产规模、中文能力和定价说明。
它适合医疗运营、人口健康团队、AI Agent 开发者,以及需要研究型合作来构建高风险 AI 控制层的机构。若需要开箱即用的中文医疗产品或本地合规方案,目前官网信息不足。中国访问情况未知;其依赖 Claude 的项目在中国大陆使用通常还需考虑网络、账号和支付限制,可评估本地大模型、Agent Guardrails 或医疗信息化厂商作为替代。
本测评基于公开资料整理,不构成购买建议,请以 unknownbehavior.com 官网实际信息为准。
关注 AI 不确定性与运行控制,适合 AI 安全研究参考。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。