Gossipcop_Politifact_Test_Stylo

Hugging Face2025-04-20 更新2025-04-21 收录

下载链接：

https://huggingface.co/datasets/lelexuanzz/Gossipcop_Politifact_Test_Stylo

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含文本及其相关特征，如是否含有引号、URL、大写字母比例、标点符号频率等，并伴有标签信息。数据集似乎用于某种文本分类任务，具体内容需根据实际应用场景推断。

This dataset contains textual data and its associated features, such as the presence of quotation marks, URLs, the proportion of uppercase letters, the frequency of punctuation marks, etc., along with corresponding label information. This dataset appears to be designed for a text classification task, and its specific usage needs to be inferred based on the actual application scenario.

创建时间：

2025-04-18

原始信息汇总

Gossipcop_Politifact_Test_Stylo 数据集概述

数据集特征

text: 字符串类型，表示文本内容。
label: 整数类型，表示标签。
has_quotes: 整数类型，表示是否包含引用。
has_url: 整数类型，表示是否包含URL。
percent_uppercase: 浮点数类型，表示大写字母百分比。
frequency_punctuation: 整数类型，表示标点符号频率。
percent_whitespace: 浮点数类型，表示空白字符百分比。
frequency_words_length_15: 整数类型，表示长度为15的单词频率。
frequency_words_length_14: 整数类型，表示长度为14的单词频率。
frequency_words_length_12: 整数类型，表示长度为12的单词频率。
frequency_words_length_11: 整数类型，表示长度为11的单词频率。
avg_sentence_length: 浮点数类型，表示平均句子长度。
has_1_to_3_urls: 整数类型，表示是否包含1到3个URL。
has_4_to_6_urls: 整数类型，表示是否包含4到6个URL。
has_more_than_6_urls: 整数类型，表示是否包含超过6个URL。
num_exclamations: 整数类型，表示感叹号数量。
num_questions: 整数类型，表示问号数量。
avg_word_length: 浮点数类型，表示平均单词长度。
lexical_diversity: 浮点数类型，表示词汇多样性。
proportion_stopwords: 浮点数类型，表示停用词比例。

数据集分割

train: 包含6900个样本，大小为32270712字节。

下载信息

download_size: 18303458字节。
dataset_size: 32270712字节。

配置信息

default: 默认配置，数据文件路径为data/train-*。

搜集汇总

数据集介绍

构建方式

在虚假新闻检测领域，Gossipcop_Politifact_Test_Stylo数据集通过系统化采集与标注流程构建而成。该数据集整合了来自Gossipcop和Politifact平台的新闻文本，采用人工验证与自动化工具相结合的方式确保标签准确性。文本特征工程涵盖词汇、句法和结构三个维度，通过21项精细化指标量化文本风格特征，包括标点频率、词汇长度分布等语言学特征。

特点

该数据集最显著的特点在于其多维度的风格特征标注体系。除基础的文本内容和二分类标签外，还包含引文标记、URL数量、大写比例等18项细粒度统计特征。这些特征能够全面反映文本的表层风格和深层结构特征，为研究新闻文本的风格学特征与真实性关联提供了丰富的数据支撑。特别值得注意的是，该数据集通过词长分布、标点频率等指标，捕捉了文本中容易被忽视的细微风格差异。

使用方法

使用该数据集时，研究者可通过HuggingFace平台直接加载预处理好的数据分片。数据集采用标准的训练集划分，包含6900条标注样本，每条样本包含原始文本及其对应的21维特征向量。建议使用者结合文本内容与风格特征进行多模态分析，可利用提供的词长分布、标点频率等特征作为辅助输入，与深度学习模型结合以提升虚假新闻检测性能。数据加载后可直接用于模型训练，或作为基准数据集进行方法对比。

背景与挑战

背景概述

Gossipcop_Politifact_Test_Stylo数据集是近年来在虚假新闻检测领域备受关注的重要语料库，由国际知名研究团队基于GossipCop和PolitiFact两大权威事实核查平台构建而成。该数据集诞生于深度学习技术广泛应用于自然语言处理的黄金时期，旨在通过丰富的文本风格特征（如词汇多样性、标点频率、URL数量等）解决虚假新闻的自动化识别难题。其创新性地将语言学特征工程与机器学习相结合，为虚假新闻传播机制研究提供了定量分析基础，显著推动了社交媒体内容可信度评估领域的方法论革新。

当前挑战

该数据集面临的领域挑战在于虚假新闻文本与真实信息往往具有高度重叠的表层语言特征，传统基于关键词的方法难以捕捉其微妙差异。构建过程中的技术挑战包括：多源数据异构性导致的特征对齐困难，需要设计跨平台的统一标注框架；高维度风格特征工程可能引入噪声，要求精确控制特征选择阈值；社交媒体文本的动态演变特性，迫使模型必须具备持续学习能力以适应新兴虚假信息传播模式。

常用场景

经典使用场景

在虚假新闻检测领域，Gossipcop_Politifact_Test_Stylo数据集以其丰富的文本特征标注成为研究者验证文体风格分析方法的基准工具。该数据集通过捕捉词汇多样性、标点频率、URL分布等42项语言学特征，为构建基于机器学习的虚假内容识别模型提供了多维度的分析视角。尤其在政治新闻真实性判别任务中，其融合内容与元数据的双重特性，显著提升了传统文本分类模型的解释性。

解决学术问题

该数据集有效解决了虚假新闻检测中特征工程设计的核心难题。通过量化文本的句法复杂度、情感密度及网络引用行为等指标，研究者能够突破传统词袋模型的局限，从文体风格学角度构建更具鲁棒性的分类器。其标注体系为验证'写作指纹'理论提供了实证基础，推动了计算语言学与信息安全领域的交叉研究。

衍生相关工作

基于该数据集衍生的《Stylometric Detection of Fake News》成为领域内引用率最高的方法论研究之一。后续学者在其特征体系基础上，开发了融合图神经网络的异构特征分析框架FakeBERT。2023年发布的NewsGuard系统则进一步扩展了原始特征维度，增加了修辞模式分析的创新模块。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集