音视频AI转文字
各维度得分依据公开资料与字段推算,加权后即综合评分,仅供参考。
SpeechText.AI 是一款AI音视频转文字服务,同时提供网页端转写工具和 Speech-to-Text API。它支持上传常见音频/视频格式,自动生成带标点的文本,并可导出 TXT、PDF、DOCX、SRT/VTT 等格式,定位于访谈、会议、播客、法律、医疗、客服和开发者集成等场景。
产品核心是深度神经网络语音识别,并强调“领域模型”:用户可选择法律、医疗、金融、HR、客服等行业域,以提升专业术语识别。功能上包括50+语言、非母语口音支持、说话人识别、自动标点、在线编辑、音频搜索、摘要和关键词高亮。正文明确支持 Mandarin Chinese,但未说明中文方言、简繁体或中文界面细节。其准确率声明包括 LibriSpeech 英语数据集词错误率3.8%,德语页面还给出93.8%-96.2%等区间;但页面也承认噪音、重叠说话、录音质量会影响效果。
网页端为按量付费、无月费:$10/180分钟到$99/2000分钟不等,文件大小上限从30MB到1GB。API为月度订阅:$49/2700分钟至$399/33250分钟,单价约$0.018-$0.012/分钟,并提供免费API Key。免费试用的具体分钟数和限制未在正文中明确。
优点是语言和格式覆盖广,专业领域模型适合术语密集内容;API示例覆盖Python、cURL、PHP、Java,支持二进制上传、公共URL、SRT输出、摘要等,集成门槛较低。隐私方面,页面声明欧洲/法国服务器、GDPR合规、加密传输、可删除文件,API FAQ还称转写完成后立即删除文件。缺点是准确率主要为网页自述或特定数据集结果,复杂真实录音仍需测试;免费额度、SLA、支付方式和企业支持等级信息不足。
它适合播客创作者、记者、研究访谈人员、会议纪要团队、法律/医疗等专业用户,以及需要低成本语音转写API的开发者。中国大陆访问状态正文未提供,支付方式也未说明;若网络或付款受限,可对比 Google Speech-to-Text、Amazon Transcribe、Azure Speech、Whisper 或本地语音识别服务。
本测评基于公开资料整理,不构成购买建议,请以 speechtext.ai 官网实际信息为准。
支持API和领域模型,适合转录产品集成。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。