开放语言数据项目
OLDI(Open Language Data Initiative)是一个开放语言数据倡议,目标是让全球语言社区、学术界和行业成员共同向机器翻译与自然语言处理所需的基础数据集贡献内容。它关注高资源语言之外的低资源/服务不足语言,希望通过开放语料扩展语言技术覆盖范围。
OLDI不是面向终端用户的AI聊天或翻译工具,而是AI基础设施型项目。当前文本提到两类核心数据:OLDI-Seed,包含6,193个从英文维基百科抽取并翻译成多种语言的句子,可用于训练机器翻译模型;FLORES+,是覆盖超过200种语言的多语机器翻译评测基准,是FLORES-200的扩展和改进版本。其价值主要体现在训练数据补充、翻译质量评测和低资源语言覆盖扩展。
抓取文本未披露收费模式、免费额度或商业授权,因此定价信息不能判断。中文支持方面,页面只说明FLORES+覆盖200多种语言并提供支持语言列表入口,未明确是否包含中文,也未说明是否提供中文界面或文档。API与集成方面,文本没有提到API、SDK或自动化下载接口,只看到贡献指南、Discord社区、Substack通讯和支持语言列表。
优点是定位非常清晰,解决低资源语言机器翻译中最关键的数据缺口;FLORES+作为评测基准适合研究对比;组织者来自高校、Common Crawl Foundation、Google、Meta FAIR、Apple等相关机构,具备较强研究社区属性。局限也明显:OLDI-Seed只有6,193句,单独训练大型系统远远不够;页面未展示许可证、数据质量控制、隐私处理和获取方式细节;对非研究用户而言门槛较高。
OLDI适合机器翻译研究者、多语NLP团队、低资源语言社区和需要评测多语模型的开发者,不适合寻找即开即用翻译产品的普通用户。中国访问情况文本没有证据,评为未知;其社区渠道如Discord、Substack在国内可能存在访问不稳定。可替代或互补资源包括FLORES、NLLB-Seed、NTREX、Common Crawl相关语料及Hugging Face Datasets上的多语翻译数据集。
本测评基于公开资料整理,不构成购买建议,请以 oldi.org 官网实际信息为准。
面向机器翻译/语料,AI数据价值高。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。