aiana94/polynews
收藏数据集卡片 - PolyNews
数据集描述
数据集概述
PolyNews 是一个包含 77 种语言和 19 种文字的新闻标题的多语言数据集。
用途
该数据集可用于语言模型的领域适应、语言建模或文本生成。
语言
数据集包含 77 种语言:
| 代码 | 语言 | 文字 | 文章数量 (K) |
|---|---|---|---|
| amh_Ethi | 阿姆哈拉语 | 埃塞俄比亚文字 | 0.551 |
| arb_Arab | 现代标准阿拉伯语 | 阿拉伯文字 | 10.882 |
| ayr_Latn | 中央艾马拉语 | 拉丁文字 | 12.878 |
| bam_Latn | 班巴拉语 | 拉丁文字 | 2.916 |
| bbj_Latn | 戈马拉语 | 拉丁文字 | 1.737 |
| ben_Beng | 孟加拉语 | 孟加拉文字 | 2.268 |
| bos_Latn | 波斯尼亚语 | 拉丁文字 | 0.298 |
| bul_Cyrl | 保加利亚语 | 西里尔文字 | 1.791 |
| cat_Latn | 加泰罗尼亚语 | 拉丁文字 | 30.410 |
| ces_Latn | 捷克语 | 拉丁文字 | 58.382 |
| ckb_Arab | 中央库尔德语 | 阿拉伯文字 | 0.014 |
| dan_Latn | 丹麦语 | 拉丁文字 | 9.456 |
| deu_Latn | 德语 | 拉丁文字 | 145.484 |
| ell_Grek | 希腊语 | 希腊文字 | 50.176 |
| eng_Latn | 英语 | 拉丁文字 | 981.430 |
| est_Latn | 爱沙尼亚语 | 拉丁文字 | 3.942 |
| ewe_Latn | 埃维语 | 拉丁文字 | 2.003 |
| fil_Latn | 菲律宾语 | 拉丁文字 | 3.3132 |
| fin_Latn | 芬兰语 | 拉丁文字 | 19.602 |
| fon_Latn | 丰语 | 拉丁文字 | 2.610 |
| fra_Latn | 法语 | 拉丁文字 | 481.117 |
| guj_Gujr | 古吉拉特语 | 古吉拉特文字 | 0.690 |
| guw_Latn | 贡语 | 拉丁文字 | 1.068 |
| hau_Latn | 豪萨语 | 拉丁文字 | 7.898 |
| heb_Hebr | 希伯来语 | 希伯来文字 | 0.355 |
| hin_Deva | 印地语 | 天城文字 | 0.707 |
| hun_Latn | 匈牙利语 | 拉丁文字 | 22.219 |
| ibo_Latn | 伊博语 | 拉丁文字 | 7.709 |
| ind_Latn | 印度尼西亚语 | 拉丁文字 | 17.749 |
| ita_Latn | 意大利语 | 拉丁文字 | 163.396 |
| jpn_Jpan | 日语 | 日文 | 20.778 |
| kaz_Cyrl | 哈萨克语 | 西里尔文字 | 0.763 |
| khm_Khmr | 高棉语 | 高棉文字 | 0.227 |
| kor_Hang | 韩语 | 韩文 | 3.527 |
| lav_Latn | 拉脱维亚语 | 拉丁文字 | 3.971 |
| lin_Latn | 林加拉语 | 拉丁文字 | 0.602 |
| lit_Latn | 立陶宛语 | 拉丁文字 | 3.948 |
| lug_Latn | 干达语 | 拉丁文字 | 4.769 |
| luo_Latn | 卢奥语 | 拉丁文字 | 4.250 |
| mkd_Cyrl | 马其顿语 | 西里尔文字 | 10.537 |
| mos_Latn | 莫西语 | 拉丁文字 | 2.458 |
| mya_Mymr | 缅甸语 | 缅甸文字 | 0.583 |
| nld_Latn | 荷兰语 | 拉丁文字 | 53.184 |
| nor_Latn | 挪威语 | 拉丁文字 | 0.529 |
| npi_Deva | 尼泊尔语 | 天城文字 | 0.220 |
| orm_Latn | 奥罗莫语 | 拉丁文字 | 1.124 |
| ory_Orya | 奥里亚语 | 奥里亚文字 | 0.038 |
| pan_Guru | 东旁遮普语 | 古尔穆奇文字 | 0.336 |
| pcm_Latn | 尼日利亚皮钦语 | 拉丁文字 | 5.742 |
| pes_Arab | 西波斯语 | 阿拉伯文字 | 1.431 |
| plt_Latn | 马尔加什语 | 拉丁文字 | 393.767 |
| pol_Latn | 波兰语 | 拉丁文字 | 80.960 |
| por_Latn | 葡萄牙语 | 拉丁文字 | 156.039 |
| ron_Latn | 罗马尼亚语 | 拉丁文字 | 10.472 |
| run_Latn | 隆迪语 | 拉丁文字 | 1.113 |
| rus_Cyrl | 俄语 | 西里尔文字 | 143.283 |
| sna_Latn | 绍纳语 | 拉丁文字 | 1.128 |
| som_Latn | 索马里语 | 拉丁文字 | 1.019 |
| spa_Latn | 西班牙语 | 拉丁文字 | 681.121 |
| sqi_Latn | 阿尔巴尼亚语 | 拉丁文字 | 7.274 |
| srp_Cyrl | 塞尔维亚语 | 西里尔文字 | 1.056 |
| srp_Latn | 塞尔维亚语 | 拉丁文字 | 58.012 |
| swe_Latn | 瑞典语 | 拉丁文字 | 12.323 |
| swh_Latn | 斯瓦希里语 | 拉丁文字 | 47.337 |
| tam_Taml | 泰米尔语 | 泰米尔文字 | 0.358 |
| tet_Latn | 德顿语 | 拉丁文字 | 0.626 |
| tha_Thai | 泰语 | 泰文 | 0.091 |
| tir_Ethi | 提格里尼亚语 | 埃塞俄比亚文字 | 0.079 |
| tsn_Latn | 茨瓦纳语 | 拉丁文字 | 2.075 |
| tur_Latn | 土耳其语 | 拉丁文字 | 19.793 |
| twi_Latn | 特威语 | 拉丁文字 | 3.012 |
| ukr_Cyrl | 乌克兰语 | 西里尔文字 | 0.292 |
| urd_Arab | 乌尔都语 | 阿拉伯文字 | 0.804 |
| wol_Latn | 沃洛夫语 | 拉丁文字 | 3.344 |
| xho_Latn | 科萨语 | 拉丁文字 | 0.709 |
| yor_Latn | 约鲁巴语 | 拉丁文字 | 8.011 |
| zho_Hans | 中文 | 简体汉字 | 59.771 |
| zho_Hant | 中文 | 繁体汉字 | 54.561 |
| zul_Latn | 祖鲁语 | 拉丁文字 | 3.376 |
数据集结构
数据实例
python from datasets import load_dataset data = load_dataset(aiana94/polynews, ron_Latn)
数据点示例:
{ "text": "Un public numeros. Este uimitor succesul după doar trei ediții.", "provenance": "globalvoices" }
数据字段
- text (string): 新闻文本
- provenance (string): 新闻示例的来源数据集
数据分割
所有语言只有一个 train 分割。
数据集创建
策划理由
近年来,已经发布了多个包含新闻文本的多语言、人工翻译的数据集。然而,这些数据集存储在不同的格式和网站上,许多包含大量近似重复的内容。通过 PolyNews,我们旨在提供一个易于访问、统一和去重化的数据集,结合这些不同的数据源。它可以用于高资源和低资源语言的语言模型的领域适应、语言建模或文本生成。
源数据
源数据由五个多语言新闻数据集组成:
- Wikinews (2024 年 5 月可用的最新转储)
- GlobalVoices (v2018q4)
- WMT-News (v2019)
- MasakhaNews (
train分割) - MAFAND (
train分割)
数据收集和处理
我们使用一个工作脚本来处理数据,该脚本涵盖了整个处理流程。脚本可以在这里找到。
数据处理流程包括:
- 从 OPUS 下载 WMT-News 和 GlobalVoices News。
- 从 WikiNews 下载最新转储。
- 从 Hugging Face Hub 加载 MasakhaNews 和 MAFAND 数据集(仅
train分割)。 - 按语言连接所有源数据集的新闻文本。
- 数据清洗(例如,删除完全重复的内容、短文本、其他文字的文本)
- 按语言进行 MinHash 近似去重。
注释
我们为原始样本增加了 provenance 注释,指定特定示例的原始数据源。
个人和敏感信息
数据来自报纸来源,包含对公众人物和个人的提及。
使用数据的注意事项
数据集的社会影响
[更多信息待补充]
偏见讨论
[更多信息待补充]
其他已知限制
用户应注意,数据集包含短新闻文本(例如,主要是标题),这可能限制开发系统在其他领域的适用性。
附加信息
许可信息
数据集在 CC BY-NC 4.0 非商业性署名许可 下发布。
引用信息
BibTeX:
bibtex @misc{iana2024news, title={News Without Borders: Domain Adaptation of Multilingual Sentence Embeddings for Cross-lingual News Recommendation}, author={Andreea Iana and Fabian David Schmidt and Goran Glavaš and Heiko Paulheim}, year={2024}, eprint={2406.12634}, archivePrefix={arXiv}, url={https://arxiv.org/abs/2406.12634} }




