Global Voices

Name: Global Voices
Creator: OpenDataLab
Published: 2026-05-24 10:30:25
License: 暂无描述

OpenDataLab2026-05-24 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/Global_Voices

下载链接

链接失效反馈

官方服务：

资源简介：

Global Voices 是一个用于评估跨语言摘要方法的多语言数据集。它是从全球之声新闻文章的社交网络描述中提取的，以廉价地收集评估数据，用于 15 种语言的成英和原英摘要。

Global Voices is a multilingual dataset designed for evaluating cross-lingual summarization methods. It is extracted from social network descriptions of Global Voices news articles, aiming to inexpensively curate evaluation data for two types of summarization tasks: cross-lingual summarization from 15 languages into English, and English monolingual summarization based on original English source texts.

提供机构：

OpenDataLab

创建时间：

2022-08-19

搜集汇总

数据集介绍

构建方式

Global Voices数据集的构建基于全球各地的非营利新闻机构Global Voices，该机构致力于收集和翻译来自不同国家和地区的公民新闻报道。数据集涵盖了自2005年以来的多语言新闻文章，通过人工翻译和机器翻译相结合的方式，确保内容的多样性和准确性。构建过程中，首先从Global Voices的在线平台抓取原始文本，随后进行语言识别和分类，最后通过多轮质量控制确保数据的高标准。

特点

Global Voices数据集以其广泛的地理覆盖和多语言特性著称。该数据集包含了来自190多个国家和地区的超过170种语言的新闻报道，涵盖了政治、社会、文化等多个领域。其独特之处在于，不仅收录了主流媒体的内容，还特别关注边缘群体和少数族裔的声音，提供了丰富的视角和深度。此外，数据集的更新频率高，能够及时反映全球动态。

使用方法

Global Voices数据集适用于多种研究领域，包括但不限于跨文化传播、全球新闻分析和语言学研究。研究者可以通过该数据集进行文本挖掘、情感分析和主题建模，以探索全球新闻的传播模式和影响因素。使用时，用户可以根据语言、地区和时间范围进行筛选，利用提供的API接口或直接下载数据进行分析。为确保数据使用的合规性，用户需遵守Global Voices的使用条款和版权规定。

背景与挑战

背景概述

Global Voices数据集由全球之声（Global Voices）组织于2005年创建，该组织致力于收集和翻译来自世界各地的公民新闻报道。数据集的核心研究问题在于如何通过多语言和多文化的视角，提供一个全面且多元化的全球新闻视角。主要研究人员包括来自不同国家的记者、翻译者和数据科学家，他们共同协作，确保数据集的多样性和代表性。该数据集对新闻传播学、跨文化交流以及全球公民社会研究等领域产生了深远影响，为学者和政策制定者提供了宝贵的研究资源。

当前挑战

Global Voices数据集在构建过程中面临多重挑战。首先，数据集需处理来自不同语言和文化背景的新闻报道，这要求高度的语言翻译和本地化能力。其次，确保新闻内容的准确性和客观性是一个持续的挑战，尤其是在处理敏感或争议性话题时。此外，数据集的维护和更新需要大量的资源和持续的国际合作，以应对不断变化的全球新闻环境。最后，如何有效地利用这一数据集进行跨文化研究和政策制定，也是一个亟待解决的问题。

发展历史

创建时间与更新

Global Voices数据集创建于2005年，由一群志愿者和记者共同发起，旨在提供多语言的新闻报道和博客内容。该数据集自创建以来，持续进行更新，以反映全球各地的最新动态和观点。

重要里程碑

Global Voices数据集的一个重要里程碑是其在2010年推出的翻译项目，该项目旨在将非英语内容翻译成多种语言，从而扩大其全球影响力。此外，2015年，Global Voices与联合国教科文组织合作，进一步提升了其国际认可度和影响力。这些合作不仅丰富了数据集的内容，也促进了跨文化交流和理解。

当前发展情况

当前，Global Voices数据集已成为全球公民新闻和多语言内容的重要来源，涵盖了超过160个国家和地区的报道。该数据集不仅为学术研究提供了丰富的文本数据，还为新闻工作者、政策制定者和公众提供了宝贵的信息资源。通过持续的技术创新和社区合作，Global Voices继续在全球信息传播和跨文化交流中发挥着关键作用。

发展历程

Global Voices 数据集首次发布，旨在收集和翻译全球各地的博客文章，以促进多语言内容交流和全球公民新闻的发展。
2005年
Global Voices 数据集开始与多个国际组织和媒体合作，扩大其影响力和覆盖范围，特别是在发展中国家和地区。
2006年
Global Voices 数据集首次应用于学术研究，特别是在语言学和跨文化传播领域，为学者提供了丰富的多语言文本资源。
2008年
Global Voices 数据集的技术架构进行了重大升级，引入了更高效的文本处理和翻译工具，提升了数据集的可用性和准确性。
2010年
Global Voices 数据集的社区参与度显著增加，通过在线平台和社交媒体，更多志愿者参与到数据集的维护和扩展中。
2012年
Global Voices 数据集首次与大型科技公司合作，利用其技术优势进行数据分析和可视化，进一步提升了数据集的应用价值。
2015年
Global Voices 数据集的覆盖范围扩展至全球190多个国家和地区，成为全球最大的多语言公民新闻数据集之一。
2018年
Global Voices 数据集在应对全球性事件如COVID-19疫情中发挥了重要作用，提供了多语言的实时新闻和社区反馈，帮助全球公众获取信息。
2020年

常用场景

经典使用场景

在全球化背景下，Global Voices数据集成为研究多语言新闻传播的重要资源。该数据集汇集了来自全球各地的非主流媒体内容，涵盖多种语言和主题，为学者提供了丰富的跨文化交流案例。通过分析这些数据，研究者能够深入探讨不同文化背景下新闻报道的差异与共性，从而揭示全球信息流动的复杂性。

解决学术问题

Global Voices数据集解决了多语言新闻传播研究中的关键问题。它为学者提供了跨文化视角，帮助他们理解不同语言和文化背景下的新闻报道策略。此外，该数据集还促进了全球信息流动的研究，揭示了信息传播中的文化障碍和桥梁。通过这些研究，学者们能够提出更具包容性和多样性的新闻传播策略，推动全球社会的理解和合作。

衍生相关工作

基于Global Voices数据集，许多经典研究工作得以展开。例如，有研究利用该数据集分析了全球新闻报道中的性别偏见，揭示了不同文化背景下性别角色的报道差异。此外，还有研究探讨了全球新闻报道中的政治倾向，分析了不同国家媒体的政治立场。这些研究不仅丰富了新闻传播理论，还为实际的新闻传播策略提供了科学依据。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集