AI 应用评测监控平台
Scorable 是 Root Signals 运营的 SaaS 平台,定位为“Measure Your AI-Powered Applications”,核心用于 LLM evaluation 与 AI 应用质量监控。它提供 Custom Evaluators、Root Evaluators、Monitoring,并在较高套餐中支持协作、自定义模型和企业级管理能力,适合需要系统化评估生成式 AI 输出的团队。
从抓取内容看,Scorable 的重点是评估而非模型生成本身。它支持自定义评估器,说明用户可以围绕自身业务标准构建评测逻辑;“Book a Demo”页面提到可处理复杂、细微的 LLM evaluation 场景。典型场景包括 AI 应用上线前质量验证、上线后输出监控、团队协作评测,以及企业内部模型或应用的持续评估。但正文未披露具体评测算法、内置指标、支持哪些基础模型或 API 调用方式,技术透明度仍有限。
免费版为 $0/月,1个席位,每日100次评测,数据保留6个月,适合个人开发者或小团队试用。Developer 版为 $19/月/席位,最多5席位,含每月5000次评测,超额按 $20/5000 次收费,并支持协作功能和自定义模型。Scale 版询价,面向企业,提供无限席位、100000+次/月评测、本地部署、SLA、Slack 支持、SAML/Okta SSO、RBAC 和无限数据保留。其性价比对早期试用友好,但中等使用量团队需关注评测次数成本。
条款对 GDPR 角色划分较清楚:客户是控制者,Root Signals 是处理者。处理数据包括用户名、邮箱、用户输入数据和使用元数据;平台承诺仅按协议目的处理,终止后可按客户选择删除或返回个人数据,并允许提前通知后的审计。客户数据及其衍生作品归客户所有。企业版还提供本地部署、SSO、RBAC 和 SLA,适合合规要求较高的组织。
优点是免费额度明确、自定义评估器灵活、企业治理能力较完整,并支持 AWS Marketplace 采购。缺点是公开资料缺少模型兼容性、API 文档、中文支持和评测效果案例;服务条款也声明不保证不中断、无错误或准确性。它更适合正在构建 LLM 应用、需要持续质量评测和合规采购流程的开发团队与企业。
正文未提供中国大陆访问、人民币支付、支付宝/微信或本地云部署信息,因此中国访问判断为未知;若实际使用海外 SaaS,可能还需评估网络连通、数据出境和付款流程。可对比 LangSmith、Langfuse、Helicone、Braintrust、Weights & Biases Weave 等 LLM 观测与评测工具。
本测评基于公开资料整理,不构成购买建议,请以 scorable.ai 官网实际信息为准。
可创建 AI judge、做实验并监控 LLM 应用。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。