长视频AI问答工具
OpenVideoSearch 是一个面向长视频问答的开源 AI 工具,口号是“Talk to your videos”。它的核心差异在于可自托管、MIT 许可,并支持两种运行路径:在自有 GPU 上完整离线运行,或接入任意 OpenAI 兼容端点。页面明确强调视频无需上传到他人云端,也没有按查询计费的本地模式。
从能力设计看,它不只是对字幕做关键词搜索,而是结合 VLM、ASR、embedding、reranker,并让 agent 在转写文本、视频帧和说话人之间循环检索。每个答案都要求给出精确时间戳引用,并在回复前对原始帧进行验证,这对会议复盘、课程检索、访谈分析等场景很有价值。它还会在摄入阶段生成全局摘要和分层时间窗口索引,并维护说话人清单与角色检测,页面称可支撑 10 小时以上录像而不明显退化。
项目标注 MIT licensed、open source。若选择本地 GPU 模式,页面称无需外部 API、可完全离线、无数据上传和 per-query bill;若选择 Cloud API,则需要在 .env 中配置 API key,费用取决于用户接入的 OpenAI-compatible provider。部署方式以 GitHub 克隆和 docker compose 为主,说明它更偏开发者工具,而非面向普通用户的一键 SaaS。
优点是隐私边界清晰、可自托管、模型选择灵活,并且围绕长视频做了时间戳溯源、说话人识别和分层索引设计。局限也明显:页面标注 Coming soon,未披露基准测试、硬件需求、模型清单、中文识别效果、托管版价格或企业支持;本地部署还需要 GPU 与工程能力,非技术用户上手成本较高。
它适合需要处理长会议、培训课、播客访谈、研究录像或内部视频知识库的技术团队,尤其适合对视频隐私敏感、希望本地化部署的组织。中国大陆访问情况页面未提供,GitHub 与外部模型 API 的可用性也会受网络环境影响;支付方面未披露。若需要成熟云服务,可对比 Twelve Labs、Azure AI Video Indexer、Gemini 视频理解,或自建 Whisper 加向量检索方案。
本测评基于公开资料整理,不构成购买建议,请以 openvideosearch.com 官网实际信息为准。
开源自托管视频QA,适合AI产品二开。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。