Jinyan1/GossipCop

Name: Jinyan1/GossipCop
Creator: Jinyan1
Published: 2023-09-23 16:34:50
License: 暂无描述

Hugging Face2023-09-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Jinyan1/GossipCop

下载链接

链接失效反馈

官方服务：

资源简介：

--- configs: - config_name: default data_files: - split: MF path: data/MF-* - split: HF path: data/HF-* - split: MR path: data/MR-* - split: HR path: data/HR-* dataset_info: features: - name: id dtype: string - name: text dtype: string - name: title dtype: string - name: description dtype: string splits: - name: MF num_bytes: 6445810 num_examples: 4084 - name: HF num_bytes: 12350244 num_examples: 4084 - name: MR num_bytes: 10848721 num_examples: 4169 - name: HR num_bytes: 27606118 num_examples: 8168 download_size: 35223867 dataset_size: 57250893 --- # Dataset Card for "GossipCop" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

配置项： - 配置名称：default 数据文件： - 数据集划分：MF 文件路径：data/MF-* - 数据集划分：HF 文件路径：data/HF-* - 数据集划分：MR 文件路径：data/MR-* - 数据集划分：HR 文件路径：data/HR-* 数据集信息：特征字段： - 字段名：id 数据类型：字符串 - 字段名：text 数据类型：字符串 - 字段名：title 数据类型：字符串 - 字段名：description 数据类型：字符串数据集划分详情： - 划分名称：MF 字节数：6445810 样本数量：4084 - 划分名称：HF 字节数：12350244 样本数量：4084 - 划分名称：MR 字节数：10848721 样本数量：4169 - 划分名称：HR 字节数：27606118 样本数量：8168 下载总大小：35223867 数据集总存储大小：57250893 --- # 「GossipCop」数据集卡片需补充更多信息：https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards

提供机构：

Jinyan1

原始信息汇总

数据集概述

配置信息

默认配置:
- 数据文件路径:
  - 分割: MF, 路径: data/MF-*
  - 分割: HF, 路径: data/HF-*
  - 分割: MR, 路径: data/MR-*
  - 分割: HR, 路径: data/HR-*

数据集信息

特征:
- 名称: id, 数据类型: string
- 名称: text, 数据类型: string
- 名称: title, 数据类型: string
- 名称: description, 数据类型: string
分割:
- 名称: MF, 字节数: 6445810, 样本数: 4084
- 名称: HF, 字节数: 12350244, 样本数: 4084
- 名称: MR, 字节数: 10848721, 样本数: 4169
- 名称: HR, 字节数: 27606118, 样本数: 8168
数据集大小:
- 下载大小: 35223867 字节
- 数据集大小: 57250893 字节

搜集汇总

数据集介绍

构建方式

Jinyan1/GossipCop数据集的构建，是通过精心挑选与名人八卦相关的新闻、社交媒体帖子等文本材料，并根据其来源的可靠性进行分类，划分为四个部分：MF、HF、MR和HR。每个部分包含不同的数据文件，数据集的特征包括文本内容、标题、描述和唯一标识符等。构建过程中，采用分块存储的方式，确保了数据集的可管理性和易用性。

特点

该数据集的特点在于其内容的专业性及多样性，涵盖了从不同渠道收集的关于名人八卦的信息。每一份数据均标注了来源，便于研究人员对信息源的可靠性进行评估。数据集规模宏大，包含数以万计的实例，为研究名人八卦信息的传播、验证和影响提供了丰富的素材。此外，数据集的划分细致，适合进行多角度的数据分析和模型训练。

使用方法

使用Jinyan1/GossipCop数据集，用户需先下载整个数据集，包含多个数据分割，每个分割适用于不同的训练和测试需求。数据集以HuggingFace的格式存储，支持通过HuggingFace的库直接加载。用户可以根据需要选择不同的数据分割，利用数据集中的特征字段进行文本分类、信息检索或情感分析等任务。详细的文件结构和字段说明，使得用户能够方便快捷地进行数据处理和分析。

背景与挑战

背景概述

GossipCop数据集是在媒体研究领域中，针对虚假新闻检测任务而构建的重要资源。该数据集由Jinyan及其团队于近年来创建，旨在为研究人员提供一个评估和比较新闻真实性检测算法的标准平台。数据集包含多个子集，涵盖了媒体论坛（MF）、社交媒体（HF）、新闻评论（MR）及新闻文章（HR）等不同来源的文本，共收录数万条数据。GossipCop数据集自发布以来，对于促进相关领域的研究，如自然语言处理、信息检索和机器学习等，产生了深远的影响。

当前挑战

在构建GossipCop数据集的过程中，研究人员面临了诸多挑战。首先是数据的质量控制，需要确保每一条新闻的真实性被准确标注。其次，数据集的多样性和平衡性是关键，不同来源和类型的数据需要均衡分布以避免模型偏差。此外，数据集在构建和应用中还面临隐私保护、版权问题以及持续更新以适应不断变化的媒体环境等挑战。在研究领域问题方面，GossipCop数据集解决的领域问题是识别和过滤虚假新闻，但这一任务的高复杂性使得模型训练和评估充满挑战。

常用场景

经典使用场景

在信息传播研究领域，Jinyan1/GossipCop数据集的经典使用场景在于评估和检测网络上的谣言与虚假信息。该数据集提供了不同类型的新闻文本，包括真实的和经过验证的虚假信息，使得研究者能够构建和测试文本分类模型，以区分真伪信息。

衍生相关工作

基于该数据集，衍生了一系列相关研究工作，如改进的谣言检测模型、多语言谣言识别算法以及结合社会网络分析的谣言传播模型等，进一步推动了网络谣言研究和实践的发展。

数据集最近研究