CorpusReaccion
收藏Corpus Reacción
数据集概述
简要描述
Corpus Reacción 是一个收集自 Facebook 公开页面的西班牙语帖子数据集,包含来自知名公司公开页面的帖子。数据收集和分享遵循 Facebook 当时的政策。
文件内容
数据集包含以下文件:
- CorpusReaccion_10Empresas.xml: 包含 13651 条西班牙语帖子的 XML 树,来自 10 个品牌。
- true_labels.csv: 包含每个帖子的一行数据,每行有 7 列,分别是:
post_id,impact_reactions,impact_comments,impact_shares,impact_positive_reaccions,impact_neutral_reactions,impact_negative_reactions。列值为 1 或 0,表示高或低影响。
XML 文件结构
- 根标签为
Paginas,包含每个公开页面的URL节点。 - 每个
URL节点包含Nombre和Publicacion节点。 - 每个
Publicacion节点包含:Fecha_Publicacion节点,包含Hora,Dia,Mes,Anio子节点。- 三个
Texto节点,分别包含原始文本、去除 HTML 元素的文本和预处理文本。 - 一个或多个
Links节点。 Ejecucion_Programa节点,包含数据收集时的信息。
示例 XML 文件
xml <Paginas> <URL url="https://m.facebook.com/ClashRoyaleES/"> <Nombre>Clash Royale ES</Nombre> <Publicacion id="437058360111686"> <Fecha_Publicacion> <Hora>13:51</Hora> <Dia>7</Dia> <Mes>08</Mes> <Anio>2018</Anio> </Fecha_Publicacion> <Texto> El 13 de agosto para LATAM y 20 para Europa <span class="_5mfr"><span class="_6qdm" style="height: 16px;">😉</span></span> </Texto> <Texto> El 13 de agosto para LATAM y 20 para Europa 😉 </Texto> <Texto> El 13 de agosto para LATAM y 20 para Europa <emoji> </Texto> <Link>https://supr.cl/EsportsRoyaleES</Link> <Ejecucion_Programa> <Nodo> <Hora>3:51</Hora> <Dia>25</Dia> <Mes>11</Mes> <Anio>2018</Anio> <Me_Gusta>666</Me_Gusta> <Me_Asombra>20</Me_Asombra> <Me_Divierte>55</Me_Divierte> <Me_Enoja>11</Me_Enoja> <Me_Encanta>110</Me_Encanta> <Me_Entristece>1</Me_Entristece> <Veces_Compartido>16</Veces_Compartido> <Comentarios>90</Comentarios> </Nodo> </Ejecucion_Programa> </Publicacion> </URL> </Paginas>




