five

CorpusReaccion

收藏
github2020-04-15 更新2024-05-31 收录
下载链接:
https://github.com/lyr-uam/CorpusReaccion
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集收集了来自10个知名公司公共页面的西班牙语Facebook帖子,共包含13651条帖子信息。数据集中的文件CorpusReaccion_10Empresas.xml以XML格式存储了这些帖子的信息,而true_labels.csv文件则提供了每条帖子的详细互动数据。

This dataset collects Spanish-language Facebook posts from the public pages of 10 well-known companies, containing a total of 13,651 post entries. The CorpusReaccion_10Empresas.xml file stores the post information in XML format, while the true_labels.csv file provides detailed interaction data for each post.
创建时间:
2019-09-22
原始信息汇总

Corpus Reacción

数据集概述

简要描述

Corpus Reacción 是一个收集自 Facebook 公开页面的西班牙语帖子数据集,包含来自知名公司公开页面的帖子。数据收集和分享遵循 Facebook 当时的政策。

文件内容

数据集包含以下文件:

  • CorpusReaccion_10Empresas.xml: 包含 13651 条西班牙语帖子的 XML 树,来自 10 个品牌。
  • true_labels.csv: 包含每个帖子的一行数据,每行有 7 列,分别是:post_id, impact_reactions, impact_comments, impact_shares, impact_positive_reaccions, impact_neutral_reactions, impact_negative_reactions。列值为 1 或 0,表示高或低影响。

XML 文件结构

  • 根标签为 Paginas,包含每个公开页面的 URL 节点。
  • 每个 URL 节点包含 NombrePublicacion 节点。
  • 每个 Publicacion 节点包含:
    • Fecha_Publicacion 节点,包含 Hora, Dia, Mes, Anio 子节点。
    • 三个 Texto 节点,分别包含原始文本、去除 HTML 元素的文本和预处理文本。
    • 一个或多个 Links 节点。
    • Ejecucion_Programa 节点,包含数据收集时的信息。

示例 XML 文件

xml <Paginas> <URL url="https://m.facebook.com/ClashRoyaleES/"> <Nombre>Clash Royale ES</Nombre> <Publicacion id="437058360111686"> <Fecha_Publicacion> <Hora>13:51</Hora> <Dia>7</Dia> <Mes>08</Mes> <Anio>2018</Anio> </Fecha_Publicacion> <Texto> El 13 de agosto para LATAM y 20 para Europa <span class="_5mfr"><span class="_6qdm" style="height: 16px;">😉</span></span> </Texto> <Texto> El 13 de agosto para LATAM y 20 para Europa 😉 </Texto> <Texto> El 13 de agosto para LATAM y 20 para Europa <emoji> </Texto> <Link>https://supr.cl/‬EsportsRoyaleES</Link> <Ejecucion_Programa> <Nodo> <Hora>3:51</Hora> <Dia>25</Dia> <Mes>11</Mes> <Anio>2018</Anio> <Me_Gusta>666</Me_Gusta> <Me_Asombra>20</Me_Asombra> <Me_Divierte>55</Me_Divierte> <Me_Enoja>11</Me_Enoja> <Me_Encanta>110</Me_Encanta> <Me_Entristece>1</Me_Entristece> <Veces_Compartido>16</Veces_Compartido> <Comentarios>90</Comentarios> </Nodo> </Ejecucion_Programa> </Publicacion> </URL> </Paginas>

搜集汇总
数据集介绍
main_image_url
构建方式
Corpus Reacción数据集的构建,是通过从Facebook公共页面收集已知公司的西班牙语帖子而形成。该数据集的收集与共享遵循收集时的Facebook政策。数据集包含两个文件:CorpusReaccion_10Empresas.xml和true_labels.csv。XML文件中包含帖子的详细信息,包括发布日期、文本内容、链接以及收集的数据;CSV文件则包含对应帖子的各类影响指标,如反应、评论、分享等。
特点
该数据集的特点在于,它提供了来自知名公司公共页面的西班牙语Facebook帖子,涵盖了多种类型的内容和互动指标。数据集采用XML和CSV格式存储,XML文件中详细记录了帖子的原始文本、预处理文本以及对应的元数据,而CSV文件则记录了每个帖子的互动影响标签。此外,数据集遵循CC-BY-SA-4.0许可,允许用户在遵守规定的前提下自由使用和共享。
使用方法
使用该数据集时,用户可以依据XML文件中的结构化数据,分析帖子的内容和互动情况。CSV文件中的标签则可以帮助用户评估不同帖子的互动影响力。在利用这些数据时,用户应确保遵守相应的数据使用政策和版权规定,尤其是在进行数据分析和模型训练时,应确保处理个人数据的透明度和合法性。
背景与挑战
背景概述
Corpus Reacción数据集是由墨西哥自治大学语言与推理研究组(Research Group: Lenguaje y Razonamiento from Universidad Autónoma Metropolitana Unidad Cuajimalpa)的Erika Sarai Rosas-Quezada、Gabriela Ramírez-de-la-Rosa和Esaú Villatoro-Tello等研究人员于2018年创建的。该数据集收集了来自Facebook公共页面的西班牙语帖子,这些页面属于知名公司。数据集的构建遵循了当时的Facebook政策,旨在为研究Facebook上的消费者参与度提供数据支持。该数据集的核心研究问题是预测消费者在Facebook上的参与度,基于公司发布的内容和方式。Corpus Reacción数据集在语言技术和社交媒体分析领域具有一定的影响力,为相关研究提供了宝贵的数据资源。
当前挑战
在研究背景方面,Corpus Reacción数据集面临的挑战主要包括:1)保证数据收集和使用的合法性,遵守Facebook政策;2)处理和分析大量的社交媒体文本数据,提取有用的特征。在构建过程中,挑战包括:1)数据收集过程中的隐私保护问题;2)数据清洗和预处理,如文本的标准化和情感分析;3)构建有效的数据标注体系,确保标签的准确性和一致性。这些挑战对于提高数据集的质量和研究结果的可靠性至关重要。
常用场景
经典使用场景
在自然语言处理与社交媒体分析领域,Corpus Reacción数据集的典型应用场景是对西班牙语公共Facebook页面上的帖子进行情感分析与影响评估。该数据集包含来自知名公司公共页面的帖子,为研究人员提供了丰富的文本素材,以探究不同类型内容对公司社交媒体策略的影响。
解决学术问题
Corpus Reacción数据集解决了情感分析中的跨语言问题,特别是针对西班牙语内容。它通过提供标注了情感反应(如正面、中性、负面反应)和影响力指标(如点赞、评论、分享数量)的文本数据,帮助学者们研究用户参与度与内容特性之间的关系,以及这些因素如何影响社交媒体上的信息传播。
衍生相关工作
基于Corpus Reacción数据集,衍生出了一系列相关工作,包括对社交媒体内容影响力的预测模型、情感分析工具的开发和社交媒体用户行为的研究。这些研究不仅推动了自然语言处理技术的发展,也为社交媒体营销策略的优化提供了理论支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作