five

Jinyan1/GossipCop

收藏
hugging_face2023-09-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Jinyan1/GossipCop
下载链接
链接失效反馈
资源简介:
--- configs: - config_name: default data_files: - split: MF path: data/MF-* - split: HF path: data/HF-* - split: MR path: data/MR-* - split: HR path: data/HR-* dataset_info: features: - name: id dtype: string - name: text dtype: string - name: title dtype: string - name: description dtype: string splits: - name: MF num_bytes: 6445810 num_examples: 4084 - name: HF num_bytes: 12350244 num_examples: 4084 - name: MR num_bytes: 10848721 num_examples: 4169 - name: HR num_bytes: 27606118 num_examples: 8168 download_size: 35223867 dataset_size: 57250893 --- # Dataset Card for "GossipCop" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
Jinyan1
原始信息汇总

数据集概述

配置信息

  • 默认配置:
    • 数据文件路径:
      • 分割: MF, 路径: data/MF-*
      • 分割: HF, 路径: data/HF-*
      • 分割: MR, 路径: data/MR-*
      • 分割: HR, 路径: data/HR-*

数据集信息

  • 特征:

    • 名称: id, 数据类型: string
    • 名称: text, 数据类型: string
    • 名称: title, 数据类型: string
    • 名称: description, 数据类型: string
  • 分割:

    • 名称: MF, 字节数: 6445810, 样本数: 4084
    • 名称: HF, 字节数: 12350244, 样本数: 4084
    • 名称: MR, 字节数: 10848721, 样本数: 4169
    • 名称: HR, 字节数: 27606118, 样本数: 8168
  • 数据集大小:

    • 下载大小: 35223867 字节
    • 数据集大小: 57250893 字节
AI搜集汇总
数据集介绍
main_image_url
构建方式
Jinyan1/GossipCop数据集的构建,是通过精心挑选与名人八卦相关的新闻、社交媒体帖子等文本材料,并根据其来源的可靠性进行分类,划分为四个部分:MF、HF、MR和HR。每个部分包含不同的数据文件,数据集的特征包括文本内容、标题、描述和唯一标识符等。构建过程中,采用分块存储的方式,确保了数据集的可管理性和易用性。
特点
该数据集的特点在于其内容的专业性及多样性,涵盖了从不同渠道收集的关于名人八卦的信息。每一份数据均标注了来源,便于研究人员对信息源的可靠性进行评估。数据集规模宏大,包含数以万计的实例,为研究名人八卦信息的传播、验证和影响提供了丰富的素材。此外,数据集的划分细致,适合进行多角度的数据分析和模型训练。
使用方法
使用Jinyan1/GossipCop数据集,用户需先下载整个数据集,包含多个数据分割,每个分割适用于不同的训练和测试需求。数据集以HuggingFace的格式存储,支持通过HuggingFace的库直接加载。用户可以根据需要选择不同的数据分割,利用数据集中的特征字段进行文本分类、信息检索或情感分析等任务。详细的文件结构和字段说明,使得用户能够方便快捷地进行数据处理和分析。
背景与挑战
背景概述
GossipCop数据集是在媒体研究领域中,针对虚假新闻检测任务而构建的重要资源。该数据集由Jinyan及其团队于近年来创建,旨在为研究人员提供一个评估和比较新闻真实性检测算法的标准平台。数据集包含多个子集,涵盖了媒体论坛(MF)、社交媒体(HF)、新闻评论(MR)及新闻文章(HR)等不同来源的文本,共收录数万条数据。GossipCop数据集自发布以来,对于促进相关领域的研究,如自然语言处理、信息检索和机器学习等,产生了深远的影响。
当前挑战
在构建GossipCop数据集的过程中,研究人员面临了诸多挑战。首先是数据的质量控制,需要确保每一条新闻的真实性被准确标注。其次,数据集的多样性和平衡性是关键,不同来源和类型的数据需要均衡分布以避免模型偏差。此外,数据集在构建和应用中还面临隐私保护、版权问题以及持续更新以适应不断变化的媒体环境等挑战。在研究领域问题方面,GossipCop数据集解决的领域问题是识别和过滤虚假新闻,但这一任务的高复杂性使得模型训练和评估充满挑战。
常用场景
经典使用场景
在信息传播研究领域,Jinyan1/GossipCop数据集的经典使用场景在于评估和检测网络上的谣言与虚假信息。该数据集提供了不同类型的新闻文本,包括真实的和经过验证的虚假信息,使得研究者能够构建和测试文本分类模型,以区分真伪信息。
衍生相关工作
基于该数据集,衍生了一系列相关研究工作,如改进的谣言检测模型、多语言谣言识别算法以及结合社会网络分析的谣言传播模型等,进一步推动了网络谣言研究和实践的发展。
数据集最近研究
最新研究方向
在信息传播与真实性验证领域,Jinyan1/GossipCop数据集近期成为研究的热点。该数据集涵盖了媒体流言、虚假声明等文本信息,并根据其真实性进行了分类。目前,研究者们正致力于探索深度学习模型在此类数据上的微调与优化,以提升对不实信息的自动识别能力。此研究方向不仅与当前社会对于信息真实性的广泛关注紧密相关,更在打击网络谣言、维护网络安全方面具有重要意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录