端侧生成音乐音效TTS
各维度得分依据公开资料与字段推算,加权后即综合评分,仅供参考。
CassetteAI 定位为“软件的声音层”,由盐湖城的小型研究团队打造,将音频 DSP 与扩散研究整合为一个生成式音频引擎。它覆盖音乐、音效和语音三类模态,核心卖点不是单纯网页创作,而是把生成音频直接嵌入游戏、通话、浏览器标签页或应用内部。
文本中最突出的能力是实时和端侧:CassetteAI 声称流式响应低于 50 毫秒,模型可放入 app bundle 中运行,减少服务器带来的延迟和隐私负担。其 SFX Generator 可生成最长 30 秒的音效,约 1 秒处理时间。产品还提供一个 SDK,并规划/提供 hosted API,服务无法端侧部署的开发者。需要注意的是,页面没有披露具体模型架构、训练数据、支持平台、SDK 语言或质量评测指标。
定价信息较明确:音效生成按 $0.01/次计费,音乐按 $0.02/输出分钟计费,属于按量付费模式,适合先小规模接入和按播放量扩展。抓取内容未提及免费额度、试用、语音生成价格、企业版、SLA 或支付方式。
优点是场景聚焦、延迟目标清晰、端侧推理有利于交互体验和隐私,并且覆盖音乐/音效/语音三种常见产品化需求。缺点是公开信息仍偏少:中文支持、版权授权、数据保留、合规认证、平台兼容性和服务支持均未说明;时间线还包含未来节点,实际可用功能需要进一步核验。
CassetteAI 更适合游戏、创作者工具、无障碍产品、机器人等需要“实时声音反馈”的开发团队,而不是只想生成单首歌曲的普通用户。中国访问情况抓取文本无信息,暂判为未知;支付方式也未披露。若国内团队需要替代方案,可比较 ElevenLabs、Suno、Stable Audio、AudioCraft 等,但需分别核验网络访问、商用授权和中文能力。
本测评基于公开资料整理,不构成购买建议,请以 cassetteai.com 官网实际信息为准。
实时端侧音频模型SDK,适合AI产品集成。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。