five

jcblaise/fake_news_filipino

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/jcblaise/fake_news_filipino
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Fake News Filipino,主要用于菲律宾语的假新闻检测。数据集包含3,206个专家标注的新闻样本,其中一半是真实的,另一半是假的。数据集的结构包括标签和文章内容,标签为0或1,文章内容为字符串。数据集的创建过程包括从被标记为假新闻的网站和主流新闻网站收集数据,并进行简单的预处理。数据集的创建者包括Jan Christian Blaise Cruz, Julianne Agatha Tan, 和 Charibeth Cheng。数据集的主要语言是菲律宾语,但也包含一些常用的英语词汇。
提供机构:
jcblaise
原始信息汇总

数据集概述

名称: Fake News Filipino

语言: 主要为菲律宾语,包含一些常用的英语词汇。

许可: 未知

多语言性: 单语种

大小: 1K<n<10K

源数据集: 原始数据

任务类别: 文本分类

任务ID: 事实核查

数据集信息:

  • 特征:

    • label: 分类标签,数据类型为类标签,包含两个类别:0 和 1。
    • article: 文章文本,数据类型为字符串。
  • 数据分割:

    • train: 训练集,包含3206个样本,总字节数为3623685。

下载大小: 1313458字节

数据集大小: 3623685字节

数据集创建

  • 数据来源:

    • 假新闻文章: 来自被非营利独立媒体事实核查组织Verafiles和菲律宾国家记者联盟(NUJP)标记为假新闻的网站。
    • 真实新闻文章: 来自菲律宾主流新闻网站,如Pilipino Star Ngayon, Abante, 和 Bandera。
  • 数据收集与标准化:

    • 通过爬虫从源网站收集数据,所有字符编码为UTF-8。预处理保持信息完整,保留大小写和标点,不纠正拼写错误。
  • 数据创建者: Jan Christian Blaise Cruz, Julianne Agatha Tan, 和 Charibeth Cheng

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作