海外资源测评导航
返回AI 应用 海外资源 / AI 应用 / 语言数据倡议 / oldi.org
O
🤖 AI 应用 语言数据倡议 未知总部 国内优化

oldi.org

开放语言数据项目

7.0/10 中国可用
TTG4G 编辑组 ·更新于 2026-06-08 ·数据来源: ai_crawl 评测方法 ↗
数据来源
ai_crawl · 最近更新 2026-06-08
行业深度解析AI 深度分析
一句话面向低资源语言的开放语言数据倡议,提供机器翻译训练与评测数据集。
适合谁语言社区、学术研究者、机器翻译/NLP开发者、行业成员
核心功能支持社区、学术与行业成员贡献开放语言数据OLDI-Seed:6193句来自英文维基百科的多语翻译句集,可用于训练机器翻译模型FLORES+:覆盖200多种语言的多语机器翻译评测基准关注低资源/服务不足语言的机器翻译覆盖与质量提升提供贡献指南、支持语言列表、Discord社区与Substack通讯
AI能力与模型OLDI本身不是大模型或在线AI生成工具,而是为机器翻译和自然语言处理提供基础数据资源。其数据可帮助研究者和开发者改进翻译覆盖和质量、构建更强的模型。
典型用例使用OLDI-Seed训练机器翻译模型;使用FLORES+对多语机器翻译系统进行评测;为低资源语言补充开放语料;语言社区向基础数据集贡献翻译数据。
中文支持文本仅说明FLORES+覆盖超过200种语言,并提供支持语言列表入口;未明确说明是否包含中文、是否有中文界面或中文文档。
API与集成文本未提及API、SDK或平台集成方式,仅提到Contribution Guidelines、Discord、Substack和Supported Languages。
数据隐私文本未披露数据隐私、许可证、数据审核、个人信息处理或合规政策。
输出质量与局限OLDI提供基础语料与评测基准,有助于提升低资源语言翻译质量;但OLDI-Seed仅6,193句,作为训练数据规模有限,且抓取文本未说明质量控制、标注一致性和下载/使用规范。
中国访问未知
适用场景低资源语言机器翻译训练、多语翻译模型评测、语言覆盖扩展、NLP研究基准构建、社区语言数据贡献
同类FLORES、NLLB-Seed、NTREX、Common Crawl相关语言数据集、Hugging Face Datasets上的多语机器翻译数据集
性价比8
易用6
服务6
综合7
优点
  • 定位清晰,聚焦低资源语言数据缺口
  • 数据集与机器翻译训练、评测场景直接相关
  • FLORES+覆盖超过200种语言,适合多语评测
  • 由学术机构、基金会及大型科技公司相关人员共同组织,具备研究社区属性
  • 鼓励社区直接贡献,有利于数据持续扩展
不足
  • 抓取文本未提供数据许可证、下载方式或API细节
  • 未说明中文界面或中文文档支持情况
  • OLDI-Seed规模为6
  • 193句,单独用于训练大型模型可能有限
  • 未披露数据质量控制、隐私处理和审核流程

深度测评

TG4G · 2026-06-08 更新 · 仅供参考

是什么

OLDI(Open Language Data Initiative)是一个开放语言数据倡议,目标是让全球语言社区、学术界和行业成员共同向机器翻译与自然语言处理所需的基础数据集贡献内容。它关注高资源语言之外的低资源/服务不足语言,希望通过开放语料扩展语言技术覆盖范围。

核心能力与数据集

OLDI不是面向终端用户的AI聊天或翻译工具,而是AI基础设施型项目。当前文本提到两类核心数据:OLDI-Seed,包含6,193个从英文维基百科抽取并翻译成多种语言的句子,可用于训练机器翻译模型;FLORES+,是覆盖超过200种语言的多语机器翻译评测基准,是FLORES-200的扩展和改进版本。其价值主要体现在训练数据补充、翻译质量评测和低资源语言覆盖扩展。

定价、中文与集成

抓取文本未披露收费模式、免费额度或商业授权,因此定价信息不能判断。中文支持方面,页面只说明FLORES+覆盖200多种语言并提供支持语言列表入口,未明确是否包含中文,也未说明是否提供中文界面或文档。API与集成方面,文本没有提到API、SDK或自动化下载接口,只看到贡献指南、Discord社区、Substack通讯和支持语言列表。

优缺点

优点是定位非常清晰,解决低资源语言机器翻译中最关键的数据缺口;FLORES+作为评测基准适合研究对比;组织者来自高校、Common Crawl Foundation、Google、Meta FAIR、Apple等相关机构,具备较强研究社区属性。局限也明显:OLDI-Seed只有6,193句,单独训练大型系统远远不够;页面未展示许可证、数据质量控制、隐私处理和获取方式细节;对非研究用户而言门槛较高。

适合谁与中国访问

OLDI适合机器翻译研究者、多语NLP团队、低资源语言社区和需要评测多语模型的开发者,不适合寻找即开即用翻译产品的普通用户。中国访问情况文本没有证据,评为未知;其社区渠道如Discord、Substack在国内可能存在访问不稳定。可替代或互补资源包括FLORES、NLLB-Seed、NTREX、Common Crawl相关语料及Hugging Face Datasets上的多语翻译数据集。

本测评基于公开资料整理,不构成购买建议,请以 oldi.org 官网实际信息为准。

中文卖点

面向机器翻译/语料,AI数据价值高。

官网快照

/shot/oldi-org.png
oldi.org

价格走势

当前价 · 仅供参考
价格未公开 当前定价
价格采集自官网公开页面,实时更新;历史走势数据采集中,暂无足够历史样本。下单请以官网实时价为准。

用户评价

综合评分
7.0/10
TG4G 综合评分

评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。

常见问题

oldi.org 是一家未知的AI 应用 (语言数据倡议)服务商. 本页收录其「开放语言数据项目」套餐. 面向机器翻译/语料,AI数据价值高.
oldi.org 在中国大陆有较好的直连体验, 多数地区无需代理即可访问. 该商家总部位于未知, 主要面向海外市场.
访问 oldi.org 官网完成注册即可使用. 注册一般需要邮箱 (推荐 Gmail/Outlook) 和支付方式. 多数海外服务支持信用卡 / PayPal / 加密货币. 完整流程见本页"前往官网"按钮.

浏览其他大类