独立AI模型盲评
The Multivac 是一个独立 AI 模型评测平台,核心不是提供聊天或写作工具,而是比较前沿模型“谁表现更好”。其方法是把同一个新问题同时发给多个模型,匿名收集回答,再让模型彼此依据结构化 rubric 打分,最后汇总共识排名。页面称已有 56 个前沿模型、18,800+ 次评估,并提供 Dashboard、排行榜、Substack 分析、GitHub 代码和 Discord 社区。
它覆盖代码、推理、分析、沟通、边界案例和元对齐等类别。Phase 2 中每个类别使用 10 个优化模型池,10 个模型回答、10 个模型评审,形成 100 次判断,自评会从排名中排除。评分维度包括正确性 25%、完整性 20%、清晰度 20%、深度 20%、实用性 15%。这种“盲评 + 多评审 + 同侪共识”比单一 GPT 裁判更能降低个体偏差,也能观察哪些模型更严苛或更宽松。
页面明确表示无需账户即可查看排行榜、完整评估数据和模型对比;未披露付费计划。其突出优势是开放数据:原始分数、评审身份、回答文本、生成时间均公开。评估引擎采用 MIT 许可,开发者可在 GitHub fork、修改评分标准并测试自己的模型。但正文未提供平台 API、企业集成、SLA 或商业支持信息。
优点是透明、可复核、方法论清晰,并按领域使用不同模型池,适合做模型选型参考。局限也明显:评分者仍然是模型,不是人类专家或真实用户;结果会受题目设计、模型池选择、OpenRouter 排名依据和 rubric 权重影响。因此它更适合做相对参考,而不是决定采购或上线的唯一依据。
它适合 AI 研究者、开发者、模型选型团队和关注大模型能力演进的人群。中国访问情况正文未说明,建议实际测试 themultivac.com、GitHub、Substack、Discord 的可达性;其中 Substack、Discord 在国内网络环境下可能不稳定。若需替代参考,可关注 LMSYS Chatbot Arena、Artificial Analysis、OpenRouter Rankings、HELM 或 OpenCompass。
本测评基于公开资料整理,不构成购买建议,请以 themultivac.com 官网实际信息为准。
提供前沿模型互评数据,适合AI选型参考。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。