Global Voices|自然语言处理数据集|多语言摘要数据集

OpenDataLab2025-03-29 更新2024-05-09 收录

自然语言处理

多语言摘要

下载链接：

https://opendatalab.org.cn/OpenDataLab/Global_Voices

下载链接

链接失效反馈

资源简介：

Global Voices 是一个用于评估跨语言摘要方法的多语言数据集。它是从全球之声新闻文章的社交网络描述中提取的，以廉价地收集评估数据，用于 15 种语言的成英和原英摘要。

提供机构：

OpenDataLab

创建时间：

2022-08-19

AI搜集汇总

数据集介绍

构建方式

Global Voices数据集的构建基于全球各地的非营利新闻机构Global Voices，该机构致力于收集和翻译来自不同国家和地区的公民新闻报道。数据集涵盖了自2005年以来的多语言新闻文章，通过人工翻译和机器翻译相结合的方式，确保内容的多样性和准确性。构建过程中，首先从Global Voices的在线平台抓取原始文本，随后进行语言识别和分类，最后通过多轮质量控制确保数据的高标准。

特点

Global Voices数据集以其广泛的地理覆盖和多语言特性著称。该数据集包含了来自190多个国家和地区的超过170种语言的新闻报道，涵盖了政治、社会、文化等多个领域。其独特之处在于，不仅收录了主流媒体的内容，还特别关注边缘群体和少数族裔的声音，提供了丰富的视角和深度。此外，数据集的更新频率高，能够及时反映全球动态。

使用方法

Global Voices数据集适用于多种研究领域，包括但不限于跨文化传播、全球新闻分析和语言学研究。研究者可以通过该数据集进行文本挖掘、情感分析和主题建模，以探索全球新闻的传播模式和影响因素。使用时，用户可以根据语言、地区和时间范围进行筛选，利用提供的API接口或直接下载数据进行分析。为确保数据使用的合规性，用户需遵守Global Voices的使用条款和版权规定。

背景与挑战

背景概述

Global Voices数据集由全球之声（Global Voices）组织于2005年创建，该组织致力于收集和翻译来自世界各地的公民新闻报道。数据集的核心研究问题在于如何通过多语言和多文化的视角，提供一个全面且多元化的全球新闻视角。主要研究人员包括来自不同国家的记者、翻译者和数据科学家，他们共同协作，确保数据集的多样性和代表性。该数据集对新闻传播学、跨文化交流以及全球公民社会研究等领域产生了深远影响，为学者和政策制定者提供了宝贵的研究资源。

当前挑战

Global Voices数据集在构建过程中面临多重挑战。首先，数据集需处理来自不同语言和文化背景的新闻报道，这要求高度的语言翻译和本地化能力。其次，确保新闻内容的准确性和客观性是一个持续的挑战，尤其是在处理敏感或争议性话题时。此外，数据集的维护和更新需要大量的资源和持续的国际合作，以应对不断变化的全球新闻环境。最后，如何有效地利用这一数据集进行跨文化研究和政策制定，也是一个亟待解决的问题。

发展历史

创建时间与更新

Global Voices数据集创建于2005年，由一群志愿者和记者共同发起，旨在提供多语言的新闻报道和博客内容。该数据集自创建以来，持续进行更新，以反映全球各地的最新动态和观点。

重要里程碑

Global Voices数据集的一个重要里程碑是其在2010年推出的翻译项目，该项目旨在将非英语内容翻译成多种语言，从而扩大其全球影响力。此外，2015年，Global Voices与联合国教科文组织合作，进一步提升了其国际认可度和影响力。这些合作不仅丰富了数据集的内容，也促进了跨文化交流和理解。

当前发展情况

当前，Global Voices数据集已成为全球公民新闻和多语言内容的重要来源，涵盖了超过160个国家和地区的报道。该数据集不仅为学术研究提供了丰富的文本数据，还为新闻工作者、政策制定者和公众提供了宝贵的信息资源。通过持续的技术创新和社区合作，Global Voices继续在全球信息传播和跨文化交流中发挥着关键作用。

发展历程

Global Voices 数据集首次发布，旨在收集和翻译全球各地的博客文章，以促进多语言内容交流和全球公民新闻的发展。
2005年
Global Voices 数据集开始与多个国际组织和媒体合作，扩大其影响力和覆盖范围，特别是在发展中国家和地区。
2006年
Global Voices 数据集首次应用于学术研究，特别是在语言学和跨文化传播领域，为学者提供了丰富的多语言文本资源。
2008年
Global Voices 数据集的技术架构进行了重大升级，引入了更高效的文本处理和翻译工具，提升了数据集的可用性和准确性。
2010年
Global Voices 数据集的社区参与度显著增加，通过在线平台和社交媒体，更多志愿者参与到数据集的维护和扩展中。
2012年
Global Voices 数据集首次与大型科技公司合作，利用其技术优势进行数据分析和可视化，进一步提升了数据集的应用价值。
2015年
Global Voices 数据集的覆盖范围扩展至全球190多个国家和地区，成为全球最大的多语言公民新闻数据集之一。
2018年
Global Voices 数据集在应对全球性事件如COVID-19疫情中发挥了重要作用，提供了多语言的实时新闻和社区反馈，帮助全球公众获取信息。
2020年

常用场景

经典使用场景

在全球化背景下，Global Voices数据集成为研究多语言新闻传播的重要资源。该数据集汇集了来自全球各地的非主流媒体内容，涵盖多种语言和主题，为学者提供了丰富的跨文化交流案例。通过分析这些数据，研究者能够深入探讨不同文化背景下新闻报道的差异与共性，从而揭示全球信息流动的复杂性。

解决学术问题

Global Voices数据集解决了多语言新闻传播研究中的关键问题。它为学者提供了跨文化视角，帮助他们理解不同语言和文化背景下的新闻报道策略。此外，该数据集还促进了全球信息流动的研究，揭示了信息传播中的文化障碍和桥梁。通过这些研究，学者们能够提出更具包容性和多样性的新闻传播策略，推动全球社会的理解和合作。

衍生相关工作

基于Global Voices数据集，许多经典研究工作得以展开。例如，有研究利用该数据集分析了全球新闻报道中的性别偏见，揭示了不同文化背景下性别角色的报道差异。此外，还有研究探讨了全球新闻报道中的政治倾向，分析了不同国家媒体的政治立场。这些研究不仅丰富了新闻传播理论，还为实际的新闻传播策略提供了科学依据。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

光伏电站发电量预估数据

1、准确预测一个地区分布式光伏场站的整体输出功率，可以提高电网的稳定性，增加电网消纳光电能量的能力，在降低能源消耗成本的同时促进低碳能源发展，实现动态供需状态预测的方法，为绿色电力源网荷储的应用落地提供支持。 2、准确预估光伏电站发电量，可以自动发现一些有故障的设备或者低效电站，提升发电效能。1、逆变器及电站数据采集,将逆变器中计算累计发电量数据,告警数据同步到Maxcompute大数据平台 2、天气数据采集, 通过API获取ERA5气象数据包括光照辐射、云量、温度、湿度等 3、数据特征构建, 在大数据处理平台进行数据预处理，用累计发电量矫正小时平均发电功率，剔除异常数据、归一化。告警次数等指标计算 4、异常数据处理, 天气、设备数据根据经纬度信息进行融合, 并对融合后的数据进行二次预处理操作，剔除辐照度和发电异常的一些数据 5、算法模型训练,基于XGBoost算法模型对历史数据进行训练, 生成训练集并保存至OSS 6、算法模型预测,基于XGBoost算法模型接入OSS训练集对增量数据进行预测, 并评估预测准确率等效果数据，其中误差率=(发电量-预估发电量)/发电量，当误差率低于一定阈值时，该数据预测为准确。预测准确率=预测准确数量/预测数据总量。

浙江省数据知识产权登记平台收录

FROM-GLC全球30米地表覆盖数据集（2017）

该数据集中的数据获取自清华大学宫鹏团队。全球土地覆盖数据是了解人类活动与全球变化之间复杂互动关系的关键信息来源。FROM-GLC（更精细的全球土地覆盖观测和监测）是利用大地卫星专题成像仪（TM）和增强型专题成像仪（ETM+）数据制作的第一个30米分辨率的全球土地覆盖图。

国家对地观测科学数据中心收录

CIFAR-10

CIFAR-10 数据集由 10 个类别的 60000 个 32x32 彩色图像组成，每个类别包含 6000 个图像。有 50000 个训练图像和 10000 个测试图像。数据集分为五个训练批次和一个测试批次，每个批次有 10000 张图像。测试批次恰好包含来自每个类别的 1000 个随机选择的图像。训练批次包含随机顺序的剩余图像，但一些训练批次可能包含来自一个类的图像多于另一个。在它们之间，训练批次恰好包含来自每个类别的 5000 张图像。

OpenDataLab 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。