PangeaBench-flores|机器翻译数据集|低资源语言数据集
收藏数据集卡片:Flores 200
数据集描述
数据集概述
FLORES-200 是一个用于机器翻译的基准数据集,涵盖了从英语到低资源语言的翻译。该数据集扩展了 FLORES-101 的语言覆盖范围,包含 200 种语言。由于新加入的语言标准化程度较低,需要更专业的翻译,因此翻译流程进行了调整。FLORES-200 包含从西班牙语、法语、俄语和现代标准阿拉伯语翻译而来的语言,并且为四种语言提供了两种脚本选项。数据集包含 842 篇不同网络文章的翻译,总计 3001 个句子,分为 dev、devtest 和 test(隐藏)三个部分。平均句子长度约为 21 个单词。
支持的任务和排行榜
- 多语言机器翻译:参考 Dynabench 排行榜 获取更多关于 FLORES-101 模型评估的详细信息。
语言
数据集包含 200 种语言的平行句子,使用 ISO 639-3 代码标识语言,并附加脚本代码(例如 eng_Latn
, ukr_Cyrl
)。
数据集结构
数据实例
示例数据实例包括 id
、sentence
、URL
、domain
、topic
、has_image
和 has_hyperlink
字段。
数据字段
id
:数据条目的行号,从 1 开始。sentence
:特定语言的完整句子。URL
:句子来源的英文文章的 URL。domain
:句子的域。topic
:句子的主题。has_image
:原始文章是否包含图像。has_hyperlink
:句子是否包含超链接。
数据分割
配置 | dev |
devtest |
---|---|---|
所有配置 | 997 | 1012 |
附加信息
数据集策展人
详情请参阅论文。
许可信息
使用 Creative Commons Attribution Share Alike 4.0 许可证。
引用信息
使用数据集时,请引用以下文献: bibtex @article{nllb2022, author = {NLLB Team, Marta R. Costa-jussà, James Cross, Onur Çelebi, Maha Elbayad, Kenneth Heafield, Kevin Heffernan, Elahe Kalbassi, Janice Lam, Daniel Licht, Jean Maillard, Anna Sun, Skyler Wang, Guillaume Wenzek, Al Youngblood, Bapi Akula, Loic Barrault, Gabriel Mejia Gonzalez, Prangthip Hansanti, John Hoffman, Semarley Jarrett, Kaushik Ram Sadagopan, Dirk Rowe, Shannon Spruit, Chau Tran, Pierre Andrews, Necip Fazil Ayan, Shruti Bhosale, Sergey Edunov, Angela Fan, Cynthia Gao, Vedanuj Goswami, Francisco Guzmán, Philipp Koehn, Alexandre Mourachko, Christophe Ropers, Safiyyah Saleem, Holger Schwenk, Jeff Wang}, title = {No Language Left Behind: Scaling Human-Centered Machine Translation}, year = {2022} }
bibtex @inproceedings{, title={The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation}, author={Goyal, Naman and Gao, Cynthia and Chaudhary, Vishrav and Chen, Peng-Jen and Wenzek, Guillaume and Ju, Da and Krishnan, Sanjana and Ranzato, MarcAurelio and Guzm{a}n, Francisco and Fan, Angela}, year={2021} }
bibtex @inproceedings{, title={Two New Evaluation Datasets for Low-Resource Machine Translation: Nepali-English and Sinhala-English}, author={Guzm{a}n, Francisco and Chen, Peng-Jen and Ott, Myle and Pino, Juan and Lample, Guillaume and Koehn, Philipp and Chaudhary, Vishrav and Ranzato, MarcAurelio}, journal={arXiv preprint arXiv:1902.01382}, year={2019} }

中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
NASA Battery Dataset
用于预测电池健康状态的数据集,由NASA提供。
github 收录