Fumika/Wikinews-multilingual
收藏Hugging Face2024-02-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Fumika/Wikinews-multilingual
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了33种语言的15,200篇WikiNews文章,其中9,960篇是非英语新闻,5,240篇是英语新闻。所有非英语新闻都与一篇英语新闻相关联,表示相同的事件。数据集主要用于文本分类和特征提取任务。每个数据点包含标题、页面ID、类别、文本内容、语言、URL、日期和类型等变量。数据集由Fumika Isono和Primer AI整理,使用cc-by-2.5许可证。数据集可以用于构建弱对齐的多语言平行句子数据集,适用于多语言嵌入和语言比较等任务。
该数据集包含了33种语言的15,200篇WikiNews文章,其中9,960篇是非英语新闻,5,240篇是英语新闻。所有非英语新闻都与一篇英语新闻相关联,表示相同的事件。数据集主要用于文本分类和特征提取任务。每个数据点包含标题、页面ID、类别、文本内容、语言、URL、日期和类型等变量。数据集由Fumika Isono和Primer AI整理,使用cc-by-2.5许可证。数据集可以用于构建弱对齐的多语言平行句子数据集,适用于多语言嵌入和语言比较等任务。
提供机构:
Fumika
原始信息汇总
Wikinews - 弱对齐多语言平行句子数据集
数据集概述
该数据集包含15,200篇多语言WikiNews文章,涵盖33种语言。其中,9,960篇为非英语新闻,5,240篇为英语新闻。所有非英语新闻均与5,240篇英语新闻中的某一篇相关联,关联文章报道相同事件。非英语语言包括:西班牙语、法语、德语、葡萄牙语、波兰语、意大利语、中文、俄语、日语、荷兰语、瑞典语、泰米尔语、塞尔维亚语、捷克语、加泰罗尼亚语、希伯来语、土耳其语、芬兰语、世界语、希腊语、匈牙利语、乌克兰语、挪威语、阿拉伯语、波斯语、韩语、罗马尼亚语、保加利亚语、波斯尼亚语、林堡语、阿尔巴尼亚语、泰语。
数据集详情
示例数据
| 标题 | pageid | 分类 | 语言 | URL | 文本 | 日期 | 类型 | |
|---|---|---|---|---|---|---|---|---|
| 0 | Bloody Sunday Inquiry publishes report into ... | 191513 | [Northern Ireland, Martin McGuinness, Politics...] | en | https://en.wikinews.org/wiki/%27Bloody_Sunday_... | [On Tuesday, the "Bloody Sunday Inquiry" publi... | 2010-06-17 | title |
| 1 | 1972 ”இரத்த ஞாயிறு” படுகொலைகள் தொடர்பில் பிரித... | 191513 | [Northern Ireland, Martin McGuinness, Politics...] | ta | https://ta.wikinews.org/wiki/1972_%E2%80%9D%E0... | [வடக்கு அயர்லாந்தில் 38 ஆண்டுகளுக்கு முன்னர் இ... | வியாழன், சூன் 17, 2010 | interlang link |
| 2 | Very serious: Chinese government releases co... | 232226 | [China, December 30, 2010, Politics and confli...] | en | https://en.wikinews.org/wiki/%27Very_serious%2... | [A report by the Chinese government states cor... | 2010-12-30 | title |
| 3 | Čína připustila, že tamní korupce je vážný pro... | 232226 | [China, December 30, 2010, Politics and confli...] | cs | https://cs.wikinews.org/wiki/%C4%8C%C3%ADna_p%... | [Zpráva čínské vlády připouští, že korupce v z... | Středa 29. prosince 2010 | interlang link |
| 4 | China admite que la corrupción en el país es ... | 232226 | [China, December 30, 2010, Politics and confli...] | es | https://es.wikinews.org/wiki/China_admite_que_... | [29 de diciembre de 2010Beijing, China —, Un r... | None | interlang link |
变量
每个数据点包括以下变量:
| 字段名 | 描述 |
|---|---|
| title | WikiNews文章标题 |
| pageid | 由英语WikiNews文章定义的pageid。具有相同pageid的数据对应于同一新闻事件的链接文章。 |
| categories | WikiNews定义的主题列表。所有页面至少有一个来自[Crime and law, Culture and entertainment, Disasters and accidents, Economy and business, Education, Environment, Heath, Obituaries, Politics and conflicts, Science and technology, Sports, Wackynews, Weather]的主题 |
| text | 文章内容。某些外语页面只有新闻标题但没有内容,对于这些页面,文本为空。 |
| lang | 文章语言(WP代码,查看这里获取列表) |
| url | 文章URL |
| date | 英语页面的发布日期,格式为YYYY-MM-DD。外语页面的日期保持原样。要获取YYYY-MM-DD格式的日期,请查找具有相同pageid的英语页面。 |
| type | 英语页面的title,非英语页面的interlang link,与具有相同pageid的英语页面相关联 |
数据集描述
该数据集由Fumika Isono(Primer AI)策划,涵盖33种语言,遵循cc-by-2.5许可。
数据集来源
数据集来源于Wikinews。
使用场景
弱对齐多语言平行句子数据集
通过比较与同一英语WikiNews页面(在数据集中具有相同pageid)相关联的WikiNews页面的标题和/或内容,可以构建弱对齐多语言平行句子数据集。以下是同一pageid的标题示例:
| 新闻标题 | 语言 | 类型 |
|---|---|---|
| Bomb blast in Delhi kills 12, injures 62 | English | title |
| چندین کشته بر اثر انفجار بمب در مقابل دادگاه عالی هند | Farsi | title |
| 9 נהרגו בפיגוע מחוץ לבית המשפט העליון של הודו | Hebrew | title |
| У Индији 11 мртвих, 64 повређених | Serbian | title |
| தில்லி உயர்நீதிமன்றத்தில் குண்டு வெடிப்பு, 10 பேர் உயிரிழப்பு | Tamil | title |
直接使用
- 多语言嵌入
- 语言比较
搜集汇总
数据集介绍

构建方式
在跨语言自然语言处理领域,构建高质量的多语言平行语料库是推动模型泛化能力的关键。Wikinews-multilingual数据集通过利用维基新闻平台的多语言特性,以弱对齐方式构建。其核心方法基于英文维基新闻文章作为锚点,通过页面ID(pageid)将描述同一新闻事件的不同语言文章进行关联。具体而言,从33种语言的维基新闻中收集了15,200篇文章,其中5,240篇为英文新闻,其余9,960篇非英文新闻均通过跨语言链接与对应的英文文章配对。这种构建方式依赖于维基新闻社区维护的跨语言链接结构,确保了不同语言版本在内容主题上的一致性,为后续的平行句对提取提供了结构化基础。
特点
该数据集在跨语言文本资源中展现出显著的多维度特征。其覆盖33种语言,包括英语、西班牙语、中文、日语等主要语种,以及泰米尔语、塞尔维亚语等资源相对稀缺的语言,语言多样性较为丰富。数据以新闻事件为中心组织,通过共享的pageid实现弱对齐,使得同一事件的不同语言报道能够被有效关联。每条数据包含标题、页面ID、分类标签、文本内容、语言代码、URL和发布日期等结构化字段,其中分类标签涵盖了犯罪与法律、文化娱乐、政治冲突等12个新闻主题。值得注意的是,部分非英文文章的文本内容可能为空,但标题信息通常完整,这为基于标题的跨语言对齐任务提供了可能。
使用方法
该数据集主要应用于跨语言自然语言处理研究,特别是在多语言嵌入和语言对比分析方面具有直接价值。研究人员可通过提取共享相同pageid的文章标题或文本内容,构建弱对齐的多语言平行句对,用于训练或评估跨语言句子表示模型。例如,在嵌入空间映射任务中,可利用不同语言对同一新闻事件的描述,学习语言间的线性变换关系。使用时应首先根据pageid字段进行数据分组,以获取同一事件的多语言表述;对于文本分析,需注意处理非英文内容缺失的情况,并可结合分类标签进行主题特定的跨语言研究。数据以标准表格格式提供,支持通过语言代码或分类进行筛选,便于集成到机器学习流程中。
背景与挑战
背景概述
在自然语言处理领域,多语言平行语料库的构建对于跨语言模型的研究至关重要。Fumika/Wikinews-multilingual数据集由Primer AI的研究员Fumika Isono于2023年创建,旨在提供一种弱对齐的多语言平行句子资源。该数据集基于WikiNews平台,涵盖了33种语言,包含15,200篇新闻文章,其中非英语新闻与英语新闻通过页面ID关联,描述同一新闻事件。其核心研究问题聚焦于多语言句子嵌入的线性映射,为跨语言信息检索、机器翻译等任务提供了数据基础,推动了多语言自然语言处理技术的发展。
当前挑战
该数据集旨在解决多语言文本对齐与嵌入的挑战,特别是在弱监督环境下如何有效构建跨语言平行句子对。构建过程中的主要挑战包括:数据采集需处理多种语言的非结构化新闻文本,确保内容一致性;部分非英语文章存在标题完整但正文缺失的问题,影响语料质量;日期格式在不同语言中不统一,增加了时间对齐的复杂性;此外,语言覆盖范围广,涉及资源稀缺语言,如林堡语、阿尔巴尼亚语等,对数据清洗和标注提出了更高要求。
常用场景
经典使用场景
在跨语言自然语言处理领域,Wikinews-multilingual数据集以其弱对齐的多语言平行句子结构,为研究者提供了丰富的多语言新闻文本资源。该数据集通过链接同一新闻事件在不同语言中的报道,构建了涵盖33种语言的平行语料,尤其适用于训练和评估跨语言句子嵌入模型。其经典使用场景在于利用这些对齐的新闻标题或内容,进行跨语言语义相似度计算或句子表示学习,从而推动多语言理解技术的发展。
解决学术问题
该数据集有效解决了跨语言自然语言处理中平行语料稀缺的学术难题,特别是在低资源语言对之间构建对齐数据方面。通过提供弱对齐的多语言新闻句子,它支持研究者探索跨语言映射、零样本迁移学习以及多语言表示对齐等核心问题。其意义在于降低了多语言模型开发的壁垒,促进了语言技术在全球范围内的公平应用,对推动语言多样性保护和信息平等访问产生了深远影响。
衍生相关工作
基于Wikinews-multilingual数据集,学术界衍生了一系列经典研究工作,特别是在跨语言嵌入和迁移学习方向。例如,相关研究利用该数据集的弱对齐特性,探索线性跨语言映射方法,以提升句子嵌入在多语言任务中的性能。这些工作不仅验证了数据集在低资源语言处理中的有效性,还推动了如多语言BERT等预训练模型的优化,为后续更复杂的跨语言理解任务奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



