five

aiana94/polynews

收藏
Hugging Face2024-06-21 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/aiana94/polynews
下载链接
链接失效反馈
官方服务:
资源简介:
PolyNews是一个多语言新闻数据集,包含77种语言和19种文字的新闻标题。该数据集可用于语言模型的领域适应、语言建模或文本生成。数据集的来源包括Wikinews、GlobalVoices、WMT-News、MasakhaNews和MAFAND等多个多语言新闻数据集。数据集经过清洗和去重处理,并添加了来源标注。数据集的结构包括文本和来源两个字段,并且所有语言的数据集都只有训练集。
提供机构:
aiana94
原始信息汇总

数据集卡片 - PolyNews

数据集描述

数据集概述

PolyNews 是一个包含 77 种语言和 19 种文字的新闻标题的多语言数据集。

用途

该数据集可用于语言模型的领域适应、语言建模或文本生成。

语言

数据集包含 77 种语言:

代码 语言 文字 文章数量 (K)
amh_Ethi 阿姆哈拉语 埃塞俄比亚文字 0.551
arb_Arab 现代标准阿拉伯语 阿拉伯文字 10.882
ayr_Latn 中央艾马拉语 拉丁文字 12.878
bam_Latn 班巴拉语 拉丁文字 2.916
bbj_Latn 戈马拉语 拉丁文字 1.737
ben_Beng 孟加拉语 孟加拉文字 2.268
bos_Latn 波斯尼亚语 拉丁文字 0.298
bul_Cyrl 保加利亚语 西里尔文字 1.791
cat_Latn 加泰罗尼亚语 拉丁文字 30.410
ces_Latn 捷克语 拉丁文字 58.382
ckb_Arab 中央库尔德语 阿拉伯文字 0.014
dan_Latn 丹麦语 拉丁文字 9.456
deu_Latn 德语 拉丁文字 145.484
ell_Grek 希腊语 希腊文字 50.176
eng_Latn 英语 拉丁文字 981.430
est_Latn 爱沙尼亚语 拉丁文字 3.942
ewe_Latn 埃维语 拉丁文字 2.003
fil_Latn 菲律宾语 拉丁文字 3.3132
fin_Latn 芬兰语 拉丁文字 19.602
fon_Latn 丰语 拉丁文字 2.610
fra_Latn 法语 拉丁文字 481.117
guj_Gujr 古吉拉特语 古吉拉特文字 0.690
guw_Latn 贡语 拉丁文字 1.068
hau_Latn 豪萨语 拉丁文字 7.898
heb_Hebr 希伯来语 希伯来文字 0.355
hin_Deva 印地语 天城文字 0.707
hun_Latn 匈牙利语 拉丁文字 22.219
ibo_Latn 伊博语 拉丁文字 7.709
ind_Latn 印度尼西亚语 拉丁文字 17.749
ita_Latn 意大利语 拉丁文字 163.396
jpn_Jpan 日语 日文 20.778
kaz_Cyrl 哈萨克语 西里尔文字 0.763
khm_Khmr 高棉语 高棉文字 0.227
kor_Hang 韩语 韩文 3.527
lav_Latn 拉脱维亚语 拉丁文字 3.971
lin_Latn 林加拉语 拉丁文字 0.602
lit_Latn 立陶宛语 拉丁文字 3.948
lug_Latn 干达语 拉丁文字 4.769
luo_Latn 卢奥语 拉丁文字 4.250
mkd_Cyrl 马其顿语 西里尔文字 10.537
mos_Latn 莫西语 拉丁文字 2.458
mya_Mymr 缅甸语 缅甸文字 0.583
nld_Latn 荷兰语 拉丁文字 53.184
nor_Latn 挪威语 拉丁文字 0.529
npi_Deva 尼泊尔语 天城文字 0.220
orm_Latn 奥罗莫语 拉丁文字 1.124
ory_Orya 奥里亚语 奥里亚文字 0.038
pan_Guru 东旁遮普语 古尔穆奇文字 0.336
pcm_Latn 尼日利亚皮钦语 拉丁文字 5.742
pes_Arab 西波斯语 阿拉伯文字 1.431
plt_Latn 马尔加什语 拉丁文字 393.767
pol_Latn 波兰语 拉丁文字 80.960
por_Latn 葡萄牙语 拉丁文字 156.039
ron_Latn 罗马尼亚语 拉丁文字 10.472
run_Latn 隆迪语 拉丁文字 1.113
rus_Cyrl 俄语 西里尔文字 143.283
sna_Latn 绍纳语 拉丁文字 1.128
som_Latn 索马里语 拉丁文字 1.019
spa_Latn 西班牙语 拉丁文字 681.121
sqi_Latn 阿尔巴尼亚语 拉丁文字 7.274
srp_Cyrl 塞尔维亚语 西里尔文字 1.056
srp_Latn 塞尔维亚语 拉丁文字 58.012
swe_Latn 瑞典语 拉丁文字 12.323
swh_Latn 斯瓦希里语 拉丁文字 47.337
tam_Taml 泰米尔语 泰米尔文字 0.358
tet_Latn 德顿语 拉丁文字 0.626
tha_Thai 泰语 泰文 0.091
tir_Ethi 提格里尼亚语 埃塞俄比亚文字 0.079
tsn_Latn 茨瓦纳语 拉丁文字 2.075
tur_Latn 土耳其语 拉丁文字 19.793
twi_Latn 特威语 拉丁文字 3.012
ukr_Cyrl 乌克兰语 西里尔文字 0.292
urd_Arab 乌尔都语 阿拉伯文字 0.804
wol_Latn 沃洛夫语 拉丁文字 3.344
xho_Latn 科萨语 拉丁文字 0.709
yor_Latn 约鲁巴语 拉丁文字 8.011
zho_Hans 中文 简体汉字 59.771
zho_Hant 中文 繁体汉字 54.561
zul_Latn 祖鲁语 拉丁文字 3.376

数据集结构

数据实例

python from datasets import load_dataset data = load_dataset(aiana94/polynews, ron_Latn)

数据点示例:

{ "text": "Un public numeros. Este uimitor succesul după doar trei ediții.", "provenance": "globalvoices" }

数据字段

  • text (string): 新闻文本
  • provenance (string): 新闻示例的来源数据集

数据分割

所有语言只有一个 train 分割。

数据集创建

策划理由

近年来,已经发布了多个包含新闻文本的多语言、人工翻译的数据集。然而,这些数据集存储在不同的格式和网站上,许多包含大量近似重复的内容。通过 PolyNews,我们旨在提供一个易于访问、统一和去重化的数据集,结合这些不同的数据源。它可以用于高资源和低资源语言的语言模型的领域适应、语言建模或文本生成。

源数据

源数据由五个多语言新闻数据集组成:

数据收集和处理

我们使用一个工作脚本来处理数据,该脚本涵盖了整个处理流程。脚本可以在这里找到。

数据处理流程包括:

  1. 从 OPUS 下载 WMT-News 和 GlobalVoices News。
  2. 从 WikiNews 下载最新转储。
  3. 从 Hugging Face Hub 加载 MasakhaNews 和 MAFAND 数据集(仅 train 分割)。
  4. 按语言连接所有源数据集的新闻文本。
  5. 数据清洗(例如,删除完全重复的内容、短文本、其他文字的文本)
  6. 按语言进行 MinHash 近似去重

注释

我们为原始样本增加了 provenance 注释,指定特定示例的原始数据源。

个人和敏感信息

数据来自报纸来源,包含对公众人物和个人的提及。

使用数据的注意事项

数据集的社会影响

[更多信息待补充]

偏见讨论

[更多信息待补充]

其他已知限制

用户应注意,数据集包含短新闻文本(例如,主要是标题),这可能限制开发系统在其他领域的适用性。

附加信息

许可信息

数据集在 CC BY-NC 4.0 非商业性署名许可 下发布。

引用信息

BibTeX:

bibtex @misc{iana2024news, title={News Without Borders: Domain Adaptation of Multilingual Sentence Embeddings for Cross-lingual News Recommendation}, author={Andreea Iana and Fabian David Schmidt and Goran Glavaš and Heiko Paulheim}, year={2024}, eprint={2406.12634}, archivePrefix={arXiv}, url={https://arxiv.org/abs/2406.12634} }

搜集汇总
数据集介绍
main_image_url
构建方式
在新闻推荐与跨语言自然语言处理领域,多语言数据的整合与清洗是提升模型泛化能力的关键。PolyNews数据集正是为应对这一挑战而构建,它将来自Wikinews、GlobalVoices、WMT-News、MasakhaNews和MAFAND五个多语言新闻源的文本进行系统融合。构建流程涵盖数据下载、按语言拼接、清洗去重(移除精确重复与短文本)以及基于MinHash的近似去重,最终形成统一、易访问且无冗余的高质量语料库。
特点
该数据集以卓越的多语言覆盖能力著称,囊括77种语言及19种书写系统,从英语、德语等高资源语言到班巴拉语、古恩语等低资源语言均有收录。每个样本配有文本与来源标注,便于追溯数据出处。数据集规模虽以千计,但通过严格的去重策略确保了数据的多样性与纯净度,尤其适合低资源语言的模型适配与文本生成研究。
使用方法
用户可通过HuggingFace Datasets库便捷加载,指定语言代码(如'ron_Latn')即可获取对应子集。数据仅提供训练集,支持掩码填充与文本生成任务。使用时需注意数据多为短新闻标题,可能限制对长文本场景的适用性。建议结合CC-BY-NC-4.0许可证要求,在非商业用途下开展语言模型领域适配或跨语言推荐系统的开发与评估。
背景与挑战
背景概述
PolyNews数据集由Andreea Iana等人于2024年创建,旨在解决多语言新闻推荐领域中数据碎片化与语言覆盖不均的难题。该数据集整合了Wikinews、GlobalVoices、WMT-News、MasakhaNews及MAFAND五大来源,涵盖77种语言与19种书写系统,共包含超过300万条新闻标题。其核心研究问题聚焦于跨语言句子嵌入的领域自适应,以提升低资源语言在新闻推荐中的表征能力。PolyNews的发布为多语言自然语言处理研究提供了统一、去重且易于访问的基准资源,尤其对非洲、亚洲等低资源语言社区具有重要推动意义,填补了现有数据集在高语言多样性方面的空白。
当前挑战
PolyNews所面临的挑战主要体现在两方面。在领域问题层面,跨语言新闻推荐需应对语言间语义鸿沟与数据稀疏性,尤其对低资源语言(如提格里尼亚语、奥里亚语)的嵌入学习构成显著障碍,同时短文本(多标题)特性限制了模型对上下文深度的捕捉。在构建过程中,挑战源于多源数据的异构格式与噪声,包括跨数据集间的近似重复(如MinHash去重需精细调参)、不同脚本的混合(如拉丁与西里尔字母并存)以及标注信息(如来源归属)的一致性维护。此外,许可协议(CC-BY-NC-4.0)的非商业性质也可能影响其在工业场景中的广泛应用。
常用场景
经典使用场景
PolyNews数据集汇聚了涵盖77种语言、19种书写系统的新闻标题,为多语言自然语言处理研究提供了宝贵的资源。其最经典的使用场景在于对预训练语言模型进行领域自适应微调,特别是针对多语言新闻文本的语义理解与生成任务。研究者可基于该数据集训练模型,使其能够精准捕捉不同语言新闻标题中的语义信息,从而提升模型在跨语言新闻分类、主题识别及情感分析等下游任务中的表现。此外,该数据集亦可直接用于文本生成任务,如多语言新闻标题的自动撰写与摘要生成,为构建通用型新闻智能系统奠定了坚实的数据基础。
解决学术问题
该数据集的核心学术贡献在于解决了多语言新闻领域长期存在的数据碎片化与重复问题。通过整合Wikinews、GlobalVoices、WMT-News、MasakhaNews及MAFAND五个来源,并实施严格的数据清洗与MinHash近重复去除流程,PolyNews为低资源语言研究提供了统一、高质量的训练语料。它有效缓解了低资源语言在新闻文本处理中数据匮乏的困境,推动了跨语言新闻推荐、多语言句子嵌入的领域自适应等前沿课题的发展。该数据集的发布显著提升了多语言新闻模型的泛化能力,为缩小高资源与低资源语言之间的技术鸿沟做出了重要贡献。
衍生相关工作
PolyNews数据集已催生了一系列具有影响力的研究工作。其基础论文《News Without Borders: Domain Adaptation of Multilingual Sentence Embeddings for Cross-lingual News Recommendation》系统探讨了如何利用该数据集对多语言句子嵌入模型进行领域自适应,以提升跨语言新闻推荐的性能。此外,该数据集与MasakhaNews、MAFAND等低资源语言基准数据集紧密关联,为非洲语言等低资源语种的新闻处理研究提供了关键数据支持。未来,PolyNews有望进一步推动多语言预训练模型在新闻领域的微调范式研究,并激发更多关于跨语言知识迁移与低资源语言建模的创新工作。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作