five

OPUS-100

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/OPUS-100
下载链接
链接失效反馈
官方服务:
资源简介:
"继[3]之后,OPUS-100是以英语为中心的,这意味着所有训练对在源端或目标端都包括英语。语料库涵盖100种语言(包括英语)。我们根据体积选择语言OPUS 中可用的并行数据。OPUS 集合由多个语料库组成,从电影字幕到 GNOME 文档再到圣经。我们没有整理数据或尝试平衡不同领域的表示,而是选择了最简单的方法下载每个语言对的所有语料库并将它们连接起来。数据集分为训练、开发和测试部分。我们随机抽取每个语言对最多 100 万个句子对进行训练,每个语言对最多抽取 2000 个句子对用于开发和测试。为了确保训练和开发/测试数据之间没有重叠(在单语句子级别),我们在采样期间应用过滤器以排除已经采样的句子。注意这是跨语言完成的,例如,训练数据的葡萄牙语-英语部分中的英语句子不会出现在印地语-英语测试集中。 OPUS-100 包含大约 55M 句对。在 99 个语言对中,44 个有 1M 的句子对训练数据,73 个至少有 100k,95 个至少有 10k。"
提供机构:
OpenDataLab
创建时间:
2022-04-29
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作