five

aiana94/xMINDsmall

收藏
Hugging Face2024-06-25 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/aiana94/xMINDsmall
下载链接
链接失效反馈
官方服务:
资源简介:
xMINDsmall是一个开放的大规模多语言并行新闻数据集,用于多语言和跨语言的新闻推荐。它基于英语的MINDsmall数据集,使用开源的神经机器翻译模型NLLB 3.3B进行翻译。数据集包含14种语言,涵盖了不同地理区域和语言家族的新闻数据。数据集的结构包括数据实例、数据字段和数据分割,适用于机器翻译、文本检索和新闻推荐等任务。

xMINDsmall是一个开放的大规模多语言并行新闻数据集,用于多语言和跨语言的新闻推荐。它基于英语的MINDsmall数据集,使用开源的神经机器翻译模型NLLB 3.3B进行翻译。数据集包含14种语言,涵盖了不同地理区域和语言家族的新闻数据。数据集的结构包括数据实例、数据字段和数据分割,适用于机器翻译、文本检索和新闻推荐等任务。
提供机构:
aiana94
原始信息汇总

xMINDsmall 数据集概述

数据集描述

数据集摘要

xMINDsmall 是一个开放的大规模多平行新闻数据集,用于多语言和跨语言新闻推荐。该数据集源自英语的 MINDsmall 数据集,使用开源神经机器翻译模型(如 NLLB 3.3B)进行翻译。

用途

该数据集可用于机器翻译、文本检索,或作为新闻推荐任务的基准数据集。

语言

xMINDsmall 包含翻译成 14 种语言的新闻,这些语言在地理和语言学上具有多样性。

代码 语言 脚本 宏观区域 语系 语族
FIN 芬兰语 拉丁文 欧亚大陆 乌拉尔语系 芬兰语族
GRN 瓜拉尼语 拉丁文 南美洲 图皮语系 马维提-瓜拉尼语族
HAT 海地克里奥尔语 拉丁文 北美洲 印欧语系 克里奥尔语和皮钦语
IND 印度尼西亚语 拉丁文 太平洋群岛 南岛语系 马来-巽他语族
JPN 日语 日文 欧亚大陆 日本语系 日本语族
KAT 格鲁吉亚语 格鲁吉亚文 欧亚大陆 卡尔特维尔语系 格鲁吉亚-扎恩语族
RON 罗马尼亚语 拉丁文 欧亚大陆 印欧语系 罗曼语族
SOM 索马里语 拉丁文 非洲 亚非语系 低地东库希特语族
SWH 斯瓦希里语 拉丁文 非洲 尼日尔-刚果语系 班图语族
TAM 泰米尔语 泰米尔文 欧亚大陆 达罗毗荼语系 达罗毗荼语族
THA 泰语 泰文 欧亚大陆 侗台语系 侗台语族
TUR 土耳其语 拉丁文 欧亚大陆 阿尔泰语系 突厥语族
VIE 越南语 拉丁文 欧亚大陆 南亚语系 越语族
ZHO 普通话 汉字 欧亚大陆 汉藏语系 汉语族

数据集结构

数据实例

python { "nid": "N49265", "title": "Aceste reţete cu sos de afine sunt perfecte pentru cina de Ziua Recunoştinţei.", "abstract": "Nu vei mai vrea niciodată versiunea cumpărată din magazin." }

数据字段

  • nid (字符串): 新闻 ID(与 MIND 数据集 中的 ID 相同)
  • title (字符串): 新闻标题
  • abstract (字符串): 新闻摘要(可选)

数据分割

所有语言的数据集都包含两个分割:traindev

数据集创建

源数据

新闻数据通过机器翻译自 MINDsmall 数据集

数据收集和处理

使用开源模型 NLLB 3.3B 进行新闻文章的翻译。有关翻译设置和数据质量的更多详细信息,请参阅相应的 论文

个人和敏感信息

数据来源于报纸,包含对公众人物和个人的提及。

使用数据的注意事项

其他已知限制

用户应注意,数据集包含简短的新闻文本(如新闻标题和摘要),这可能限制开发系统在其他领域的适用性。

附加信息

许可信息

数据集根据 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License 发布。如果打算使用、改编或分享 xMINDsmall,特别是与原始 MIND 数据集中的额外新闻和点击行为信息一起使用,请阅读并参考 Microsoft Research License Terms

引用信息

bibtex @misc{iana2024mind, title={MIND Your Language: A Multilingual Dataset for Cross-lingual News Recommendation}, author={Andreea Iana and Goran Glavaš and Heiko Paulheim}, year={2024}, eprint={2403.17876}, archivePrefix={arXiv}, primaryClass={cs.IR} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作