多文档问答评测基准
FanOutQA 是一个面向大语言模型的高质量多跳、多文档问答评测基准,知识库基于英文 Wikipedia。它并不是普通用户可直接使用的聊天工具,而是研究者和工程团队用来评估 LLM/RAG 系统复杂问答能力的数据集、Python 工具包和排行榜体系。
其重点是 fan-out 式问题:模型需要跨越更多文档收集证据并进行综合推理。数据集提供 closed-book、open-book、evidence-provided 三种任务设置,分别考察模型内化知识、检索结合回答、以及给定证据后的推理能力。工具包支持 load_dev、load_test 加载数据,wiki_search 与 wiki_content 获取 Wikipedia 页面内容,并提供 BM25+ baseline retriever。评测指标包括 loose/strict accuracy、ROUGE、BLEURT 和 GPT-as-judge。
文档未给出商业定价,数据集与 fanoutqa Python 包可安装使用。需要注意的是,若启用 GPT-as-judge,需要用户自行配置 FANOUTQA_OPENAI_API_KEY,因此会产生 OpenAI API 的外部成本。官方还提供约 9GB Wikipedia 缓存和 23GB 英文 Wikipedia 快照,使用时需考虑下载与存储成本。
优点是任务设计聚焦真实复杂问答,包含人工分解、必要证据和明确的数据 schema,便于复现实验与诊断模型缺陷;同时评测流程和排行榜提交机制较完整。局限在于它主要服务英文 Wikipedia 场景,未体现中文数据支持;完整评测依赖 spaCy、BLEURT、OpenAI API 等,安装和网络门槛高;此外它不是可直接生产部署的问答系统。
适合 LLM 研究人员、RAG 系统开发者、模型评测团队和希望比较多文档推理能力的机构。不太适合只需要低门槛 AI 问答工具的个人用户。
中国大陆访问情况文档未说明。由于其依赖 GitHub、Wikipedia、Google Storage、OpenAI API 等资源,实际使用可能受网络与支付环境影响。中文评测可考虑自建中文多文档 QA 数据集,或结合 C-Eval、CMMLU 等中文基准作为补充。
本测评基于公开资料整理,不构成购买建议,请以 fanoutqa.com 官网实际信息为准。
适合LLM研究与RAG评测参考。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。