评测Agent检索质量
Seer 是面向 RAG、搜索系统和 AI Agent 的生产级上下文质量观测平台。它关注的问题不是通用应用日志,而是“检索到的上下文是否足以回答用户问题”。官网强调,很多 Agent 出现幻觉、上下文漂移或召回下降时,团队往往直到用户投诉才发现;Seer 的定位就是在生产流量中持续评估并提前告警。
Seer 通过微调评估模型自动给每次 query 打分,指标包括 groundedness、recall、precision、citation coverage 和 latency。官网披露其 Qwen3-4B 版本在基准上 Micro F1 为 0.87,接近其列出的 GPT-5 对比结果,同时推理成本更低。它还支持 change testing:将不同 embedding、reranker、prompt 或工具链变体打上 feature flag,在真实流量上 side-by-side 比较,并给出统计显著性和查询级拆解。
集成方式偏工程化,提供 Python 和 TypeScript SDK,示例仅需在检索服务或 Agent 编排层调用 client.log,上传 task、context 和 metadata。告警可接入 Slack、PagerDuty 与 webhooks,也支持生产、预发、开发环境区分。价格按评估次数计费:4B 模型 $0.00016/次,1.7B 模型 $0.00002/次;1M 次/月分别约 $160 和 $20。企业可选择自托管,但公开页面未给出套餐、免费额度或付款方式。
优点是定位非常垂直,适合已有 RAG/Agent 系统、需要监控检索质量和变更效果的工程团队;相比手工标注或用大模型逐条评估,成本结构更清晰。局限也明显:官网信息未说明中文场景表现、隐私合规、数据留存政策,核心准确率也主要来自自有基准,仍需在企业自己的数据上验证。
中国大陆访问情况正文未提供,网络连通性和支付方式均未知。若团队在国内部署或有数据合规要求,应优先询问自托管、数据是否出境、日志保留周期等问题。可对比 LangSmith、Arize Phoenix、Langfuse、Helicone、Ragas、TruLens 等工具。
本测评基于公开资料整理,不构成购买建议,请以 seersearch.com 官网实际信息为准。
监控RAG/Agent上下文质量,适合AI应用团队。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。