Unity语音识别资产
各维度得分依据公开资料与字段推算,加权后即综合评分,仅供参考。
TheyLoveGames 当前展示的是一组面向 Unity 的机器学习资源包,核心能力包括离线自动语音识别、翻译和音频分析。产品通过 Unity Asset Store 分发,主要服务于需要在 Unity C# 项目中加入语音交互、实时字幕、语音命令或声音事件识别的开发者。
其 ASR 方案基于 Whisper,提供英文版和多语言版,并按 Tiny、Base、Small、Medium 区分模型大小。文本说明中明确:模型越大准确率越高,但也需要更多内存和处理能力。多语言包还包含 Qwen 模型,用于在语言之间翻译识别文本。Yamnet 包则用于离线音频事件分类,可识别 521 类日常声音,支持音频片段和麦克风输入。
平台方面,这些包设计用于 Windows 64-bit x86_64,使用 ONNX Runtime 与 DirectML 做硬件加速,覆盖 Unity Editor 和 Standalone,并强调 fully offline。每个包提供 C# 示例场景,例如 .WAV 文件转文本、麦克风实时转写,以及实时声音分类。
抓取内容没有披露价格、授权模式、付款方式或升级政策,只能确认其位于 Unity Asset Store。文档方面,每个包都标注了 Documentation,并配有示例场景;旧版 WebGL Speech Detection/Synthesis 也提供 API 文档和 Web Demo。但正文未展示完整文档内容,因此只能判断其具备基础文档入口,质量无法深入验证。
优势是离线运行、面向 Unity 集成、覆盖 ASR/翻译/音频分类,并提供不同模型尺寸供性能与准确率权衡。对不希望依赖云端语音服务的游戏和交互应用尤其有价值。缺点是平台支持明显集中在 Windows x64,跨平台信息不足;模型体积较大,例如 Medium Multi 达 2.6 GB;定价和技术支持信息缺失,且部分包仍处于 Pending Review。
它更适合 Windows 桌面 Unity 游戏、展陈互动、教育应用、离线字幕或语音命令项目。若项目需要移动端、WebGL、macOS/Linux,需谨慎评估。中国访问情况正文没有依据,标记为未知;若 Unity Asset Store 访问或支付受限,可考虑自行集成 Whisper/ONNX,或选择国内云语音服务作为替代。
本测评基于公开资料整理,不构成购买建议,请以 theylovegames.com 官网实际信息为准。
提供 Unity 离线 ASR、翻译和音频分析工具。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。