community-datasets/urdu_fake_news
收藏Hugging Face2024-06-26 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/urdu_fake_news
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Bend the Truth (Urdu Fake News),主要用于乌尔都语的假新闻检测任务。数据集包含两个主要字段:news(新闻内容,乌尔都语字符串)和label(标签,表示新闻是真实的还是虚假的)。此外,数据集还包含一个category字段,用于表示新闻的类别,包括体育、健康、技术、娱乐和商业五个类别。数据集分为训练集和测试集,训练集包含638个样本,测试集包含262个样本。数据集的创建和标注由专家完成。
提供机构:
community-datasets
原始信息汇总
数据集卡片:Bend the Truth (Urdu Fake News)
数据集描述
数据集摘要
- annotations_creators: expert-generated
- language_creators: expert-generated
- language: ur
- license: unknown
- multilinguality: monolingual
- size_categories: n<1K
- source_datasets: original
- task_categories: text-classification
- task_ids: fact-checking, intent-classification
- pretty_name: Bend the Truth (Urdu Fake News)
数据集结构
数据字段
- news: 一个乌尔都语字符串
- label: 指示提供的新闻是真实还是虚假的标签
- 0: Fake
- 1: Real
- category: 新闻的意图类别
- 0: bus (Business)
- 1: hlth (Health)
- 2: sp (Sports)
- 3: tch (Technology)
- 4: sbz (Entertainment)
数据分割
- train:
- num_bytes: 1762905
- num_examples: 638
- test:
- num_bytes: 799587
- num_examples: 262
数据集大小
- download_size: 1042653
- dataset_size: 2562492



