Global Voices
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Global_Voices
下载链接
链接失效反馈官方服务:
资源简介:
Global Voices 是一个用于评估跨语言摘要方法的多语言数据集。它是从全球之声新闻文章的社交网络描述中提取的,以廉价地收集评估数据,用于 15 种语言的成英和原英摘要。
Global Voices is a multilingual dataset designed for evaluating cross-lingual summarization methods. It is extracted from social network descriptions of Global Voices news articles, aiming to inexpensively curate evaluation data for two types of summarization tasks: cross-lingual summarization from 15 languages into English, and English monolingual summarization based on original English source texts.
提供机构:
OpenDataLab
创建时间:
2022-08-19
搜集汇总
数据集介绍

构建方式
Global Voices数据集的构建基于全球各地的非营利新闻机构Global Voices,该机构致力于收集和翻译来自不同国家和地区的公民新闻报道。数据集涵盖了自2005年以来的多语言新闻文章,通过人工翻译和机器翻译相结合的方式,确保内容的多样性和准确性。构建过程中,首先从Global Voices的在线平台抓取原始文本,随后进行语言识别和分类,最后通过多轮质量控制确保数据的高标准。
特点
Global Voices数据集以其广泛的地理覆盖和多语言特性著称。该数据集包含了来自190多个国家和地区的超过170种语言的新闻报道,涵盖了政治、社会、文化等多个领域。其独特之处在于,不仅收录了主流媒体的内容,还特别关注边缘群体和少数族裔的声音,提供了丰富的视角和深度。此外,数据集的更新频率高,能够及时反映全球动态。
使用方法
Global Voices数据集适用于多种研究领域,包括但不限于跨文化传播、全球新闻分析和语言学研究。研究者可以通过该数据集进行文本挖掘、情感分析和主题建模,以探索全球新闻的传播模式和影响因素。使用时,用户可以根据语言、地区和时间范围进行筛选,利用提供的API接口或直接下载数据进行分析。为确保数据使用的合规性,用户需遵守Global Voices的使用条款和版权规定。
背景与挑战
背景概述
Global Voices数据集由全球之声(Global Voices)组织于2005年创建,该组织致力于收集和翻译来自世界各地的公民新闻报道。数据集的核心研究问题在于如何通过多语言和多文化的视角,提供一个全面且多元化的全球新闻视角。主要研究人员包括来自不同国家的记者、翻译者和数据科学家,他们共同协作,确保数据集的多样性和代表性。该数据集对新闻传播学、跨文化交流以及全球公民社会研究等领域产生了深远影响,为学者和政策制定者提供了宝贵的研究资源。
当前挑战
Global Voices数据集在构建过程中面临多重挑战。首先,数据集需处理来自不同语言和文化背景的新闻报道,这要求高度的语言翻译和本地化能力。其次,确保新闻内容的准确性和客观性是一个持续的挑战,尤其是在处理敏感或争议性话题时。此外,数据集的维护和更新需要大量的资源和持续的国际合作,以应对不断变化的全球新闻环境。最后,如何有效地利用这一数据集进行跨文化研究和政策制定,也是一个亟待解决的问题。
发展历史
创建时间与更新
Global Voices数据集创建于2005年,由一群志愿者和记者共同发起,旨在提供多语言的新闻报道和博客内容。该数据集自创建以来,持续进行更新,以反映全球各地的最新动态和观点。
重要里程碑
Global Voices数据集的一个重要里程碑是其在2010年推出的翻译项目,该项目旨在将非英语内容翻译成多种语言,从而扩大其全球影响力。此外,2015年,Global Voices与联合国教科文组织合作,进一步提升了其国际认可度和影响力。这些合作不仅丰富了数据集的内容,也促进了跨文化交流和理解。
当前发展情况
当前,Global Voices数据集已成为全球公民新闻和多语言内容的重要来源,涵盖了超过160个国家和地区的报道。该数据集不仅为学术研究提供了丰富的文本数据,还为新闻工作者、政策制定者和公众提供了宝贵的信息资源。通过持续的技术创新和社区合作,Global Voices继续在全球信息传播和跨文化交流中发挥着关键作用。
发展历程
- Global Voices 数据集首次发布,旨在收集和翻译全球各地的博客文章,以促进多语言内容交流和全球公民新闻的发展。
- Global Voices 数据集开始与多个国际组织和媒体合作,扩大其影响力和覆盖范围,特别是在发展中国家和地区。
- Global Voices 数据集首次应用于学术研究,特别是在语言学和跨文化传播领域,为学者提供了丰富的多语言文本资源。
- Global Voices 数据集的技术架构进行了重大升级,引入了更高效的文本处理和翻译工具,提升了数据集的可用性和准确性。
- Global Voices 数据集的社区参与度显著增加,通过在线平台和社交媒体,更多志愿者参与到数据集的维护和扩展中。
- Global Voices 数据集首次与大型科技公司合作,利用其技术优势进行数据分析和可视化,进一步提升了数据集的应用价值。
- Global Voices 数据集的覆盖范围扩展至全球190多个国家和地区,成为全球最大的多语言公民新闻数据集之一。
- Global Voices 数据集在应对全球性事件如COVID-19疫情中发挥了重要作用,提供了多语言的实时新闻和社区反馈,帮助全球公众获取信息。
常用场景
经典使用场景
在全球化背景下,Global Voices数据集成为研究多语言新闻传播的重要资源。该数据集汇集了来自全球各地的非主流媒体内容,涵盖多种语言和主题,为学者提供了丰富的跨文化交流案例。通过分析这些数据,研究者能够深入探讨不同文化背景下新闻报道的差异与共性,从而揭示全球信息流动的复杂性。
解决学术问题
Global Voices数据集解决了多语言新闻传播研究中的关键问题。它为学者提供了跨文化视角,帮助他们理解不同语言和文化背景下的新闻报道策略。此外,该数据集还促进了全球信息流动的研究,揭示了信息传播中的文化障碍和桥梁。通过这些研究,学者们能够提出更具包容性和多样性的新闻传播策略,推动全球社会的理解和合作。
衍生相关工作
基于Global Voices数据集,许多经典研究工作得以展开。例如,有研究利用该数据集分析了全球新闻报道中的性别偏见,揭示了不同文化背景下性别角色的报道差异。此外,还有研究探讨了全球新闻报道中的政治倾向,分析了不同国家媒体的政治立场。这些研究不仅丰富了新闻传播理论,还为实际的新闻传播策略提供了科学依据。
以上内容由遇见数据集搜集并总结生成



