five

suresh-subramanian/autotrain-data-fake-news

收藏
Hugging Face2022-10-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/suresh-subramanian/autotrain-data-fake-news
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是为项目fake-news自动处理的,包含英文文本分类任务。数据集中的每个样本包含多个特征,如作者、发布时间、标题、文本内容、语言、网站URL、主图URL、类型、目标标签(假新闻或真实新闻)、去除停用词的标题和文本、是否包含图片等。数据集分为训练集和验证集,分别包含1639和411个样本。
提供机构:
suresh-subramanian
原始信息汇总

数据集概述

数据集名称

  • AutoTrain Dataset for project: fake-news

数据集描述

  • 该数据集由AutoTrain自动处理,用于fake-news项目。

语言

  • 数据集语言代码为en(英语)。

数据集结构

数据实例
  • 数据实例包含以下字段:
    • feat_author: 作者名
    • feat_published: 发布时间
    • feat_title: 标题
    • text: 文本内容
    • feat_language: 语言
    • feat_site_url: 网站URL
    • feat_main_img_url: 主要图片URL
    • feat_type: 类型
    • target: 目标标签(Fake或Real)
    • feat_title_without_stopwords: 去除停用词的标题
    • feat_text_without_stopwords: 去除停用词的文本内容
    • feat_hasImage: 是否有图片(1.0表示有)
数据集字段
  • 数据集包含以下字段:
    • feat_author
    • feat_published
    • feat_title
    • text
    • feat_language
    • feat_site_url
    • feat_main_img_url
    • feat_type
    • target
    • feat_title_without_stopwords
    • feat_text_without_stopwords
    • feat_hasImage
数据集分割
  • 数据集分为训练集和验证集,分割情况如下:
    • 训练集:1639样本
    • 验证集:411样本
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作