pietrolesci/hyperpartisan_news_detection
收藏Hugging Face2023-09-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pietrolesci/hyperpartisan_news_detection
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于超党派新闻检测,包含两个配置:default和embedding_all-mpnet-base-v2。default配置包含新闻文本、标题、超党派性、URL、发布日期、偏见、文本和唯一标识符等特征。embedding_all-mpnet-base-v2配置则包含唯一标识符和嵌入向量。数据集分为训练集和验证集,分别包含600,000和150,000个样本。
提供机构:
pietrolesci
原始信息汇总
数据集概述
配置信息
-
默认配置 (
default)- 数据文件路径
- 训练集:
data/train-* - 验证集:
data/validation-*
- 训练集:
- 特征信息
news_text: 字符串title: 字符串hyperpartisan: 布尔值url: 字符串published_at: 字符串bias: 类别标签0: right1: right-center2: least3: left-center4: left
text: 字符串uid: 整数 (int64)
- 数据分割
- 训练集: 600,000 条数据, 5,549,889,491 字节
- 验证集: 150,000 条数据, 1,906,305,570 字节
- 下载大小: 4,230,482,849 字节
- 数据集大小: 7,456,195,061 字节
- 数据文件路径
-
嵌入配置 (
embedding_all-mpnet-base-v2)- 数据文件路径
- 训练集:
embedding_all-mpnet-base-v2/train-* - 验证集:
embedding_all-mpnet-base-v2/validation-*
- 训练集:
- 特征信息
uid: 整数 (int64)embedding_all-mpnet-base-v2: 浮点数序列 (float32)
- 数据分割
- 训练集: 600,000 条数据, 1,850,400,000 字节
- 验证集: 150,000 条数据, 462,600,000 字节
- 下载大小: 2,776,673,253 字节
- 数据集大小: 2,313,000,000 字节
- 数据文件路径
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



