aiana94/xMINDsmall
收藏xMINDsmall 数据集概述
数据集描述
数据集摘要
xMINDsmall 是一个开放的大规模多平行新闻数据集,用于多语言和跨语言新闻推荐。该数据集源自英语的 MINDsmall 数据集,使用开源神经机器翻译模型(如 NLLB 3.3B)进行翻译。
用途
该数据集可用于机器翻译、文本检索,或作为新闻推荐任务的基准数据集。
语言
xMINDsmall 包含翻译成 14 种语言的新闻,这些语言在地理和语言学上具有多样性。
| 代码 | 语言 | 脚本 | 宏观区域 | 语系 | 语族 |
|---|---|---|---|---|---|
| FIN | 芬兰语 | 拉丁文 | 欧亚大陆 | 乌拉尔语系 | 芬兰语族 |
| GRN | 瓜拉尼语 | 拉丁文 | 南美洲 | 图皮语系 | 马维提-瓜拉尼语族 |
| HAT | 海地克里奥尔语 | 拉丁文 | 北美洲 | 印欧语系 | 克里奥尔语和皮钦语 |
| IND | 印度尼西亚语 | 拉丁文 | 太平洋群岛 | 南岛语系 | 马来-巽他语族 |
| JPN | 日语 | 日文 | 欧亚大陆 | 日本语系 | 日本语族 |
| KAT | 格鲁吉亚语 | 格鲁吉亚文 | 欧亚大陆 | 卡尔特维尔语系 | 格鲁吉亚-扎恩语族 |
| RON | 罗马尼亚语 | 拉丁文 | 欧亚大陆 | 印欧语系 | 罗曼语族 |
| SOM | 索马里语 | 拉丁文 | 非洲 | 亚非语系 | 低地东库希特语族 |
| SWH | 斯瓦希里语 | 拉丁文 | 非洲 | 尼日尔-刚果语系 | 班图语族 |
| TAM | 泰米尔语 | 泰米尔文 | 欧亚大陆 | 达罗毗荼语系 | 达罗毗荼语族 |
| THA | 泰语 | 泰文 | 欧亚大陆 | 侗台语系 | 侗台语族 |
| TUR | 土耳其语 | 拉丁文 | 欧亚大陆 | 阿尔泰语系 | 突厥语族 |
| VIE | 越南语 | 拉丁文 | 欧亚大陆 | 南亚语系 | 越语族 |
| ZHO | 普通话 | 汉字 | 欧亚大陆 | 汉藏语系 | 汉语族 |
数据集结构
数据实例
python { "nid": "N49265", "title": "Aceste reţete cu sos de afine sunt perfecte pentru cina de Ziua Recunoştinţei.", "abstract": "Nu vei mai vrea niciodată versiunea cumpărată din magazin." }
数据字段
- nid (字符串): 新闻 ID(与 MIND 数据集 中的 ID 相同)
- title (字符串): 新闻标题
- abstract (字符串): 新闻摘要(可选)
数据分割
所有语言的数据集都包含两个分割:train 和 dev。
数据集创建
源数据
新闻数据通过机器翻译自 MINDsmall 数据集。
数据收集和处理
使用开源模型 NLLB 3.3B 进行新闻文章的翻译。有关翻译设置和数据质量的更多详细信息,请参阅相应的 论文。
个人和敏感信息
数据来源于报纸,包含对公众人物和个人的提及。
使用数据的注意事项
其他已知限制
用户应注意,数据集包含简短的新闻文本(如新闻标题和摘要),这可能限制开发系统在其他领域的适用性。
附加信息
许可信息
数据集根据 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License 发布。如果打算使用、改编或分享 xMINDsmall,特别是与原始 MIND 数据集中的额外新闻和点击行为信息一起使用,请阅读并参考 Microsoft Research License Terms。
引用信息
bibtex @misc{iana2024mind, title={MIND Your Language: A Multilingual Dataset for Cross-lingual News Recommendation}, author={Andreea Iana and Goran Glavaš and Heiko Paulheim}, year={2024}, eprint={2403.17876}, archivePrefix={arXiv}, primaryClass={cs.IR} }



