suresh-subramanian/autotrain-data-fake-news
收藏Hugging Face2022-10-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/suresh-subramanian/autotrain-data-fake-news
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是为项目fake-news自动处理的,包含英文文本分类任务。数据集中的每个样本包含多个特征,如作者、发布时间、标题、文本内容、语言、网站URL、主图URL、类型、目标标签(假新闻或真实新闻)、去除停用词的标题和文本、是否包含图片等。数据集分为训练集和验证集,分别包含1639和411个样本。
提供机构:
suresh-subramanian
原始信息汇总
数据集概述
数据集名称
- AutoTrain Dataset for project: fake-news
数据集描述
- 该数据集由AutoTrain自动处理,用于fake-news项目。
语言
- 数据集语言代码为en(英语)。
数据集结构
数据实例
- 数据实例包含以下字段:
- feat_author: 作者名
- feat_published: 发布时间
- feat_title: 标题
- text: 文本内容
- feat_language: 语言
- feat_site_url: 网站URL
- feat_main_img_url: 主要图片URL
- feat_type: 类型
- target: 目标标签(Fake或Real)
- feat_title_without_stopwords: 去除停用词的标题
- feat_text_without_stopwords: 去除停用词的文本内容
- feat_hasImage: 是否有图片(1.0表示有)
数据集字段
- 数据集包含以下字段:
- feat_author
- feat_published
- feat_title
- text
- feat_language
- feat_site_url
- feat_main_img_url
- feat_type
- target
- feat_title_without_stopwords
- feat_text_without_stopwords
- feat_hasImage
数据集分割
- 数据集分为训练集和验证集,分割情况如下:
- 训练集:1639样本
- 验证集:411样本



