CorpusReaccion

github2020-04-15 更新2024-05-31 收录

下载链接：

https://github.com/lyr-uam/CorpusReaccion

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集收集了来自10个知名公司公共页面的西班牙语Facebook帖子，共包含13651条帖子信息。数据集中的文件CorpusReaccion_10Empresas.xml以XML格式存储了这些帖子的信息，而true_labels.csv文件则提供了每条帖子的详细互动数据。

This dataset collects Spanish-language Facebook posts from the public pages of 10 well-known companies, containing a total of 13,651 post entries. The CorpusReaccion_10Empresas.xml file stores the post information in XML format, while the true_labels.csv file provides detailed interaction data for each post.

创建时间：

2019-09-22

原始信息汇总

Corpus Reacción

数据集概述

简要描述

Corpus Reacción 是一个收集自 Facebook 公开页面的西班牙语帖子数据集，包含来自知名公司公开页面的帖子。数据收集和分享遵循 Facebook 当时的政策。

文件内容

数据集包含以下文件：

CorpusReaccion_10Empresas.xml: 包含 13651 条西班牙语帖子的 XML 树，来自 10 个品牌。
true_labels.csv: 包含每个帖子的一行数据，每行有 7 列，分别是：post_id, impact_reactions, impact_comments, impact_shares, impact_positive_reaccions, impact_neutral_reactions, impact_negative_reactions。列值为 1 或 0，表示高或低影响。

XML 文件结构

根标签为 Paginas，包含每个公开页面的 URL 节点。
每个 URL 节点包含 Nombre 和 Publicacion 节点。
每个 Publicacion 节点包含：
- Fecha_Publicacion 节点，包含 Hora, Dia, Mes, Anio 子节点。
- 三个 Texto 节点，分别包含原始文本、去除 HTML 元素的文本和预处理文本。
- 一个或多个 Links 节点。
- Ejecucion_Programa 节点，包含数据收集时的信息。

示例 XML 文件

xml <Paginas> <URL url="https://m.facebook.com/ClashRoyaleES/"> <Nombre>Clash Royale ES</Nombre> <Publicacion id="437058360111686"> <Fecha_Publicacion> <Hora>13:51</Hora> <Dia>7</Dia> <Mes>08</Mes> <Anio>2018</Anio> </Fecha_Publicacion> <Texto> El 13 de agosto para LATAM y 20 para Europa <span class="_5mfr"><span class="_6qdm" style="height: 16px;">😉</span></span> </Texto> <Texto> El 13 de agosto para LATAM y 20 para Europa 😉 </Texto> <Texto> El 13 de agosto para LATAM y 20 para Europa <emoji> </Texto> <Link>https://supr.cl/‬EsportsRoyaleES</Link> <Ejecucion_Programa> <Nodo> <Hora>3:51</Hora> <Dia>25</Dia> <Mes>11</Mes> <Anio>2018</Anio> <Me_Gusta>666</Me_Gusta> <Me_Asombra>20</Me_Asombra> <Me_Divierte>55</Me_Divierte> <Me_Enoja>11</Me_Enoja> <Me_Encanta>110</Me_Encanta> <Me_Entristece>1</Me_Entristece> <Veces_Compartido>16</Veces_Compartido> <Comentarios>90</Comentarios> </Nodo> </Ejecucion_Programa> </Publicacion> </URL> </Paginas>

搜集汇总

数据集介绍

构建方式

Corpus Reacción数据集的构建，是通过从Facebook公共页面收集已知公司的西班牙语帖子而形成。该数据集的收集与共享遵循收集时的Facebook政策。数据集包含两个文件：CorpusReaccion_10Empresas.xml和true_labels.csv。XML文件中包含帖子的详细信息，包括发布日期、文本内容、链接以及收集的数据；CSV文件则包含对应帖子的各类影响指标，如反应、评论、分享等。

特点

该数据集的特点在于，它提供了来自知名公司公共页面的西班牙语Facebook帖子，涵盖了多种类型的内容和互动指标。数据集采用XML和CSV格式存储，XML文件中详细记录了帖子的原始文本、预处理文本以及对应的元数据，而CSV文件则记录了每个帖子的互动影响标签。此外，数据集遵循CC-BY-SA-4.0许可，允许用户在遵守规定的前提下自由使用和共享。

使用方法

使用该数据集时，用户可以依据XML文件中的结构化数据，分析帖子的内容和互动情况。CSV文件中的标签则可以帮助用户评估不同帖子的互动影响力。在利用这些数据时，用户应确保遵守相应的数据使用政策和版权规定，尤其是在进行数据分析和模型训练时，应确保处理个人数据的透明度和合法性。

背景与挑战

背景概述

Corpus Reacción数据集是由墨西哥自治大学语言与推理研究组（Research Group: Lenguaje y Razonamiento from Universidad Autónoma Metropolitana Unidad Cuajimalpa）的Erika Sarai Rosas-Quezada、Gabriela Ramírez-de-la-Rosa和Esaú Villatoro-Tello等研究人员于2018年创建的。该数据集收集了来自Facebook公共页面的西班牙语帖子，这些页面属于知名公司。数据集的构建遵循了当时的Facebook政策，旨在为研究Facebook上的消费者参与度提供数据支持。该数据集的核心研究问题是预测消费者在Facebook上的参与度，基于公司发布的内容和方式。Corpus Reacción数据集在语言技术和社交媒体分析领域具有一定的影响力，为相关研究提供了宝贵的数据资源。

当前挑战

在研究背景方面，Corpus Reacción数据集面临的挑战主要包括：1)保证数据收集和使用的合法性，遵守Facebook政策；2)处理和分析大量的社交媒体文本数据，提取有用的特征。在构建过程中，挑战包括：1)数据收集过程中的隐私保护问题；2)数据清洗和预处理，如文本的标准化和情感分析；3)构建有效的数据标注体系，确保标签的准确性和一致性。这些挑战对于提高数据集的质量和研究结果的可靠性至关重要。

常用场景

经典使用场景

在自然语言处理与社交媒体分析领域，Corpus Reacción数据集的典型应用场景是对西班牙语公共Facebook页面上的帖子进行情感分析与影响评估。该数据集包含来自知名公司公共页面的帖子，为研究人员提供了丰富的文本素材，以探究不同类型内容对公司社交媒体策略的影响。

解决学术问题

Corpus Reacción数据集解决了情感分析中的跨语言问题，特别是针对西班牙语内容。它通过提供标注了情感反应（如正面、中性、负面反应）和影响力指标（如点赞、评论、分享数量）的文本数据，帮助学者们研究用户参与度与内容特性之间的关系，以及这些因素如何影响社交媒体上的信息传播。

衍生相关工作

基于Corpus Reacción数据集，衍生出了一系列相关工作，包括对社交媒体内容影响力的预测模型、情感分析工具的开发和社交媒体用户行为的研究。这些研究不仅推动了自然语言处理技术的发展，也为社交媒体营销策略的优化提供了理论支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集