aiana94/polynews

Name: aiana94/polynews
Creator: aiana94
Published: 2024-06-21 08:37:54
License: 暂无描述

Hugging Face2024-06-21 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/aiana94/polynews

下载链接

链接失效反馈

官方服务：

资源简介：

PolyNews是一个多语言新闻数据集，包含77种语言和19种文字的新闻标题。该数据集可用于语言模型的领域适应、语言建模或文本生成。数据集的来源包括Wikinews、GlobalVoices、WMT-News、MasakhaNews和MAFAND等多个多语言新闻数据集。数据集经过清洗和去重处理，并添加了来源标注。数据集的结构包括文本和来源两个字段，并且所有语言的数据集都只有训练集。

提供机构：

aiana94

原始信息汇总

数据集卡片 - PolyNews

数据集描述

数据集概述

PolyNews 是一个包含 77 种语言和 19 种文字的新闻标题的多语言数据集。

用途

该数据集可用于语言模型的领域适应、语言建模或文本生成。

语言

数据集包含 77 种语言：

代码	语言	文字	文章数量 (K)
amh_Ethi	阿姆哈拉语	埃塞俄比亚文字	0.551
arb_Arab	现代标准阿拉伯语	阿拉伯文字	10.882
ayr_Latn	中央艾马拉语	拉丁文字	12.878
bam_Latn	班巴拉语	拉丁文字	2.916
bbj_Latn	戈马拉语	拉丁文字	1.737
ben_Beng	孟加拉语	孟加拉文字	2.268
bos_Latn	波斯尼亚语	拉丁文字	0.298
bul_Cyrl	保加利亚语	西里尔文字	1.791
cat_Latn	加泰罗尼亚语	拉丁文字	30.410
ces_Latn	捷克语	拉丁文字	58.382
ckb_Arab	中央库尔德语	阿拉伯文字	0.014
dan_Latn	丹麦语	拉丁文字	9.456
deu_Latn	德语	拉丁文字	145.484
ell_Grek	希腊语	希腊文字	50.176
eng_Latn	英语	拉丁文字	981.430
est_Latn	爱沙尼亚语	拉丁文字	3.942
ewe_Latn	埃维语	拉丁文字	2.003
fil_Latn	菲律宾语	拉丁文字	3.3132
fin_Latn	芬兰语	拉丁文字	19.602
fon_Latn	丰语	拉丁文字	2.610
fra_Latn	法语	拉丁文字	481.117
guj_Gujr	古吉拉特语	古吉拉特文字	0.690
guw_Latn	贡语	拉丁文字	1.068
hau_Latn	豪萨语	拉丁文字	7.898
heb_Hebr	希伯来语	希伯来文字	0.355
hin_Deva	印地语	天城文字	0.707
hun_Latn	匈牙利语	拉丁文字	22.219
ibo_Latn	伊博语	拉丁文字	7.709
ind_Latn	印度尼西亚语	拉丁文字	17.749
ita_Latn	意大利语	拉丁文字	163.396
jpn_Jpan	日语	日文	20.778
kaz_Cyrl	哈萨克语	西里尔文字	0.763
khm_Khmr	高棉语	高棉文字	0.227
kor_Hang	韩语	韩文	3.527
lav_Latn	拉脱维亚语	拉丁文字	3.971
lin_Latn	林加拉语	拉丁文字	0.602
lit_Latn	立陶宛语	拉丁文字	3.948
lug_Latn	干达语	拉丁文字	4.769
luo_Latn	卢奥语	拉丁文字	4.250
mkd_Cyrl	马其顿语	西里尔文字	10.537
mos_Latn	莫西语	拉丁文字	2.458
mya_Mymr	缅甸语	缅甸文字	0.583
nld_Latn	荷兰语	拉丁文字	53.184
nor_Latn	挪威语	拉丁文字	0.529
npi_Deva	尼泊尔语	天城文字	0.220
orm_Latn	奥罗莫语	拉丁文字	1.124
ory_Orya	奥里亚语	奥里亚文字	0.038
pan_Guru	东旁遮普语	古尔穆奇文字	0.336
pcm_Latn	尼日利亚皮钦语	拉丁文字	5.742
pes_Arab	西波斯语	阿拉伯文字	1.431
plt_Latn	马尔加什语	拉丁文字	393.767
pol_Latn	波兰语	拉丁文字	80.960
por_Latn	葡萄牙语	拉丁文字	156.039
ron_Latn	罗马尼亚语	拉丁文字	10.472
run_Latn	隆迪语	拉丁文字	1.113
rus_Cyrl	俄语	西里尔文字	143.283
sna_Latn	绍纳语	拉丁文字	1.128
som_Latn	索马里语	拉丁文字	1.019
spa_Latn	西班牙语	拉丁文字	681.121
sqi_Latn	阿尔巴尼亚语	拉丁文字	7.274
srp_Cyrl	塞尔维亚语	西里尔文字	1.056
srp_Latn	塞尔维亚语	拉丁文字	58.012
swe_Latn	瑞典语	拉丁文字	12.323
swh_Latn	斯瓦希里语	拉丁文字	47.337
tam_Taml	泰米尔语	泰米尔文字	0.358
tet_Latn	德顿语	拉丁文字	0.626
tha_Thai	泰语	泰文	0.091
tir_Ethi	提格里尼亚语	埃塞俄比亚文字	0.079
tsn_Latn	茨瓦纳语	拉丁文字	2.075
tur_Latn	土耳其语	拉丁文字	19.793
twi_Latn	特威语	拉丁文字	3.012
ukr_Cyrl	乌克兰语	西里尔文字	0.292
urd_Arab	乌尔都语	阿拉伯文字	0.804
wol_Latn	沃洛夫语	拉丁文字	3.344
xho_Latn	科萨语	拉丁文字	0.709
yor_Latn	约鲁巴语	拉丁文字	8.011
zho_Hans	中文	简体汉字	59.771
zho_Hant	中文	繁体汉字	54.561
zul_Latn	祖鲁语	拉丁文字	3.376

数据集结构

数据实例

python from datasets import load_dataset data = load_dataset(aiana94/polynews, ron_Latn)

数据点示例：

{ "text": "Un public numeros. Este uimitor succesul după doar trei ediții.", "provenance": "globalvoices" }

数据字段

text (string): 新闻文本
provenance (string): 新闻示例的来源数据集

数据分割

所有语言只有一个 train 分割。

数据集创建

策划理由

近年来，已经发布了多个包含新闻文本的多语言、人工翻译的数据集。然而，这些数据集存储在不同的格式和网站上，许多包含大量近似重复的内容。通过 PolyNews，我们旨在提供一个易于访问、统一和去重化的数据集，结合这些不同的数据源。它可以用于高资源和低资源语言的语言模型的领域适应、语言建模或文本生成。

源数据

源数据由五个多语言新闻数据集组成：

Wikinews (2024 年 5 月可用的最新转储)
GlobalVoices (v2018q4)
WMT-News (v2019)
MasakhaNews (train 分割)
MAFAND (train 分割)

数据收集和处理

我们使用一个工作脚本来处理数据，该脚本涵盖了整个处理流程。脚本可以在这里找到。

数据处理流程包括：

从 OPUS 下载 WMT-News 和 GlobalVoices News。
从 WikiNews 下载最新转储。
从 Hugging Face Hub 加载 MasakhaNews 和 MAFAND 数据集（仅 train 分割）。
按语言连接所有源数据集的新闻文本。
数据清洗（例如，删除完全重复的内容、短文本、其他文字的文本）
按语言进行 MinHash 近似去重。

注释

我们为原始样本增加了 provenance 注释，指定特定示例的原始数据源。

个人和敏感信息

数据来自报纸来源，包含对公众人物和个人的提及。

使用数据的注意事项

数据集的社会影响

[更多信息待补充]

偏见讨论

[更多信息待补充]

其他已知限制

用户应注意，数据集包含短新闻文本（例如，主要是标题），这可能限制开发系统在其他领域的适用性。

附加信息

许可信息

数据集在 CC BY-NC 4.0 非商业性署名许可下发布。

引用信息

BibTeX:

bibtex @misc{iana2024news, title={News Without Borders: Domain Adaptation of Multilingual Sentence Embeddings for Cross-lingual News Recommendation}, author={Andreea Iana and Fabian David Schmidt and Goran Glavaš and Heiko Paulheim}, year={2024}, eprint={2406.12634}, archivePrefix={arXiv}, url={https://arxiv.org/abs/2406.12634} }

搜集汇总

数据集介绍

构建方式

在新闻推荐与跨语言自然语言处理领域，多语言数据的整合与清洗是提升模型泛化能力的关键。PolyNews数据集正是为应对这一挑战而构建，它将来自Wikinews、GlobalVoices、WMT-News、MasakhaNews和MAFAND五个多语言新闻源的文本进行系统融合。构建流程涵盖数据下载、按语言拼接、清洗去重（移除精确重复与短文本）以及基于MinHash的近似去重，最终形成统一、易访问且无冗余的高质量语料库。

特点

该数据集以卓越的多语言覆盖能力著称，囊括77种语言及19种书写系统，从英语、德语等高资源语言到班巴拉语、古恩语等低资源语言均有收录。每个样本配有文本与来源标注，便于追溯数据出处。数据集规模虽以千计，但通过严格的去重策略确保了数据的多样性与纯净度，尤其适合低资源语言的模型适配与文本生成研究。

使用方法

用户可通过HuggingFace Datasets库便捷加载，指定语言代码（如'ron_Latn'）即可获取对应子集。数据仅提供训练集，支持掩码填充与文本生成任务。使用时需注意数据多为短新闻标题，可能限制对长文本场景的适用性。建议结合CC-BY-NC-4.0许可证要求，在非商业用途下开展语言模型领域适配或跨语言推荐系统的开发与评估。

背景与挑战

背景概述

PolyNews数据集由Andreea Iana等人于2024年创建，旨在解决多语言新闻推荐领域中数据碎片化与语言覆盖不均的难题。该数据集整合了Wikinews、GlobalVoices、WMT-News、MasakhaNews及MAFAND五大来源，涵盖77种语言与19种书写系统，共包含超过300万条新闻标题。其核心研究问题聚焦于跨语言句子嵌入的领域自适应，以提升低资源语言在新闻推荐中的表征能力。PolyNews的发布为多语言自然语言处理研究提供了统一、去重且易于访问的基准资源，尤其对非洲、亚洲等低资源语言社区具有重要推动意义，填补了现有数据集在高语言多样性方面的空白。

当前挑战

PolyNews所面临的挑战主要体现在两方面。在领域问题层面，跨语言新闻推荐需应对语言间语义鸿沟与数据稀疏性，尤其对低资源语言（如提格里尼亚语、奥里亚语）的嵌入学习构成显著障碍，同时短文本（多标题）特性限制了模型对上下文深度的捕捉。在构建过程中，挑战源于多源数据的异构格式与噪声，包括跨数据集间的近似重复（如MinHash去重需精细调参）、不同脚本的混合（如拉丁与西里尔字母并存）以及标注信息（如来源归属）的一致性维护。此外，许可协议（CC-BY-NC-4.0）的非商业性质也可能影响其在工业场景中的广泛应用。

常用场景

经典使用场景

PolyNews数据集汇聚了涵盖77种语言、19种书写系统的新闻标题，为多语言自然语言处理研究提供了宝贵的资源。其最经典的使用场景在于对预训练语言模型进行领域自适应微调，特别是针对多语言新闻文本的语义理解与生成任务。研究者可基于该数据集训练模型，使其能够精准捕捉不同语言新闻标题中的语义信息，从而提升模型在跨语言新闻分类、主题识别及情感分析等下游任务中的表现。此外，该数据集亦可直接用于文本生成任务，如多语言新闻标题的自动撰写与摘要生成，为构建通用型新闻智能系统奠定了坚实的数据基础。

解决学术问题

该数据集的核心学术贡献在于解决了多语言新闻领域长期存在的数据碎片化与重复问题。通过整合Wikinews、GlobalVoices、WMT-News、MasakhaNews及MAFAND五个来源，并实施严格的数据清洗与MinHash近重复去除流程，PolyNews为低资源语言研究提供了统一、高质量的训练语料。它有效缓解了低资源语言在新闻文本处理中数据匮乏的困境，推动了跨语言新闻推荐、多语言句子嵌入的领域自适应等前沿课题的发展。该数据集的发布显著提升了多语言新闻模型的泛化能力，为缩小高资源与低资源语言之间的技术鸿沟做出了重要贡献。

衍生相关工作

PolyNews数据集已催生了一系列具有影响力的研究工作。其基础论文《News Without Borders: Domain Adaptation of Multilingual Sentence Embeddings for Cross-lingual News Recommendation》系统探讨了如何利用该数据集对多语言句子嵌入模型进行领域自适应，以提升跨语言新闻推荐的性能。此外，该数据集与MasakhaNews、MAFAND等低资源语言基准数据集紧密关联，为非洲语言等低资源语种的新闻处理研究提供了关键数据支持。未来，PolyNews有望进一步推动多语言预训练模型在新闻领域的微调范式研究，并激发更多关于跨语言知识迁移与低资源语言建模的创新工作。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集