ci2_allsides

Hugging Face2025-05-04 更新2025-05-05 收录

下载链接：

https://huggingface.co/datasets/dragonslayer631/ci2_allsides

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个文本数据集，包含了文本的话题、标签、内容以及不同长度的摘要。每个文本还带有情感标签和对应话题的情感分数。此外，数据集还提供了文本和摘要的编码表示。数据集主要用于训练机器学习模型，尤其是那些涉及文本分类、情感分析和话题建模的模型。

创建时间：

2025-04-23

原始信息汇总

数据集概述

基本信息

数据集名称：dragonslayer631/ci2_allsides
下载大小：741,847,518 字节
数据集大小：856,198,723.0 字节
训练集样本数：36,071
测试集样本数：9,018

数据集特征

topic：字符串类型，表示主题。
tags：字符串类型，表示标签。
text：字符串类型，表示文本内容。
int_bias：int64类型，表示整数偏差。
summary_5：字符串类型，表示5个词的摘要。
summary_50：字符串类型，表示50个词的摘要。
summary_100：字符串类型，表示100个词的摘要。
text_entity_sentiments：字符串类型，表示文本实体情感。
text_topic_to_sentiment：字符串类型，表示文本主题到情感。
summary_100_entity_sentiments：字符串类型，表示100词摘要的实体情感。
summary_100_topic_to_sentiment：字符串类型，表示100词摘要的主题到情感。
summary_50_entity_sentiments：字符串类型，表示50词摘要的实体情感。
summary_50_topic_to_sentiment：字符串类型，表示50词摘要的主题到情感。
id：字符串类型，表示唯一标识符。
text_encoded：float32序列，表示编码后的文本。
summary_100_encoded：float32序列，表示编码后的100词摘要。
summary_50_encoded：float32序列，表示编码后的50词摘要。
text_topic_[0-4]：字符串类型，表示文本主题0到4。
text_sentiment_[0-4]：float64类型，表示文本情感0到4。
summary_100_topic_[0-4]：字符串类型，表示100词摘要的主题0到4。
summary_100_sentiment_[0-4]：float64类型，表示100词摘要的情感0到4。
summary_50_topic_[0-4]：字符串类型，表示50词摘要的主题0到4。
summary_50_sentiment_[0-4]：float64类型，表示50词摘要的情感0到4。

数据分割

train：训练集，包含36,071个样本，大小约为684,955,180.58字节。
test：测试集，包含9,018个样本，大小约为171,243,542.42字节。

配置文件

default：默认配置，包含训练集和测试集的数据文件路径。

搜集汇总

数据集介绍

构建方式

在媒体偏见分析领域，ci2_allsides数据集通过系统化采集和标注流程构建而成。该数据集收录了36,071条训练样本和9,018条测试样本，每条数据包含原始文本及其不同长度的摘要（5/50/100字符），并采用多维度标注体系，包括话题分类、实体情感分析、主题-情感映射等。文本和摘要均经过嵌入式编码处理，形成可计算的向量表示，同时人工标注了五个主要主题及其对应情感极性分数，为量化分析提供了结构化基础。

使用方法

研究者可基于该数据集开展多模态分析，通过int_bias字段进行媒体偏见检测，利用topic和tags字段实现内容分类，或借助sentiment相关字段构建情感分析模型。嵌入式向量可直接用于相似度计算或作为预训练输入，而不同长度的摘要则支持文本摘要任务的对比研究。实验时建议区分train/test集，其中测试集占比20%，确保模型评估的可靠性。对于跨主题分析，可联合text_topic_*和summary_*_topic_*字段，探究原始内容与摘要间的主题一致性。

背景与挑战

背景概述

ci2_allsides数据集是近年来在自然语言处理领域备受关注的一个多维度文本分析数据集，由专业研究团队构建，旨在探索文本内容与情感倾向之间的复杂关系。该数据集涵盖了丰富的文本特征，包括主题分类、情感分析、实体情感倾向等多层次信息，为研究者提供了深入分析文本偏见的宝贵资源。其核心研究问题聚焦于如何量化文本中的立场倾向，并通过多粒度摘要与情感标注的结合，推动媒体偏见检测与立场分析领域的发展。

当前挑战

该数据集面临的挑战主要体现在两个方面：领域问题的复杂性使得准确量化文本立场倾向需要克服语义模糊性和上下文依赖性的难题；构建过程中，多维度标注的一致性保障、不同摘要粒度间的信息等价性验证，以及大规模文本编码的计算效率优化，都成为亟待解决的技术瓶颈。

常用场景

经典使用场景

在媒体偏见分析和文本情感计算领域，ci2_allsides数据集凭借其丰富的文本特征和标注信息，成为研究多角度新闻报道分析的理想选择。该数据集通过整合原始文本、摘要及情感倾向标签，为研究者提供了从微观词向量到宏观主题分布的完整分析维度，特别适用于训练能够识别媒体立场偏差的深度学习模型。

解决学术问题

该数据集有效解决了跨媒体立场检测中的标注稀疏性问题，其细粒度的情感-主题关联标注突破了传统情感分析仅关注极性判断的局限。通过量化文本与摘要的多层次语义关联，为研究信息浓缩过程中的立场偏移现象提供了基准数据，显著推进了计算传播学领域对媒体偏见形成机制的理解。

实际应用

在实际应用中，该数据集支撑了新闻聚合平台的智能推荐系统开发，通过分析不同媒体对同一事件的报道差异，实现用户偏好与媒体立场的精准匹配。政务部门借助其主题-情感联合分析能力，可实时监测重大公共事件中不同立场媒体的舆论引导趋势，为危机公关策略提供数据支撑。

数据集最近研究