LLM测试时认知API
各维度得分依据公开资料与字段推算,加权后即综合评分,仅供参考。
Voaige 是一家围绕 “Test-Time Cognition” 展开研究和产品化的 AI 实验室。其核心思路不是继续修改模型权重,也不是在 Agent 层增加更多 Prompt、RAG 或工具调用,而是在二者之间加入一个推理调节层,通过测试时搜索与计算分配来提升 LLM 在复杂任务中的表现。
页面披露的关键能力包括 adaptive compute、selective search 与 uncertainty-aware inference。Voaige 认为难题、真实推理、规划和开放式泛化不能完全依赖训练阶段压缩到权重中的策略,而需要在推理时根据不确定性决定何时搜索、搜索哪里以及投入多少计算。其方法受认知与系统神经科学启发,强调分层抽象、选择性注意和早期剪枝。
Voaige 自称是 drop-in OpenAI-compatible endpoint,现有使用 OpenAI 接口的应用理论上可较低成本迁移,无需修改模型、Agent 配置或 Prompt。页面给出的评测来自 Mini-SWE-agent 与 Terminal-Bench 2.0:GPT-5.2 baseline 在 minimal、low、medium 配置下成功率分别为 32.6%、49.4%、57.7%,Voaige GPT-5.2 为 64.8%;中位任务成本为 $0.26,低于 GPT-5.2 medium 的 $0.45,但高于 minimal 与 low。
网站未披露正式定价、免费额度、试用、付款方式或企业方案,仅展示任务级成本对比。因此很难判断长期使用的商业成本。数据隐私、日志保留、合规、SLA、技术支持渠道也没有明确说明。中文支持未提及,不能确认其在中文任务上的表现。
优点是接入形态清晰、兼容 OpenAI、无需改权重和 Prompt,并且在公开示例中展示了更高成功率。缺点是产品信息仍偏研究导向,评测场景集中在智能体编码任务,缺少第三方验证与生产级保障信息。它更适合 AI 工程团队、Agent 开发者和研究人员,用于复杂推理、编码智能体和推理成本/准确率权衡实验。
页面未提供中国大陆访问、支付或本地化信息,实际可用性为未知。若访问或支付受限,可考虑 OpenAI API、Claude、Gemini、Together AI、Fireworks AI,或结合 LangGraph、DSPy 自建推理与搜索策略。
本测评基于公开资料整理,不构成购买建议,请以 voaige.com 官网实际信息为准。
OpenAI兼容端点,关注推理增强,值得跟踪。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。