helinivan/sarcasm_headlines_multilingual
收藏Hugging Face2022-12-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/helinivan/sarcasm_headlines_multilingual
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含荷兰语、英语和意大利语的新闻标题,这些标题来自真实的新闻来源和讽刺/讽刺性报纸。新闻标题的讽刺性根据新闻来源确定。数据集的总长度为67,480条,其中讽刺性标题25,609条,非讽刺性标题41,817条。数据集的结构包括文章URL、文章标题、是否讽刺、语言和标题长度等字段。数据集的创建过程包括从Kaggle数据集中选择部分数据,以及直接从报纸网站抓取数据。
This dataset contains news headlines in Dutch, English, and Italian, sourced from both legitimate news outlets and satirical/sarcastic newspapers. The satirical attribute of each headline is determined based on its original news source. The dataset comprises a total of 67,480 entries, including 25,609 satirical headlines and 41,817 non-satirical headlines. Its structure includes fields such as article URL, article headline, satirical label, language, and headline length. The dataset was developed by selecting partial data from an existing Kaggle dataset and directly scraping data from newspaper websites.
提供机构:
helinivan
原始信息汇总
数据集概述:多语言讽刺检测
数据集描述
数据集总结
- 数据集包含荷兰语、英语和意大利语的新闻文章标题。
- 新闻文章标题来自真实新闻源和讽刺/幽默报纸。
- 新闻文章的讽刺性/非讽刺性基于新闻来源。
语言
- 英语 (
en) - 荷兰语 (
nl) - 意大利语 (
it)
数据集结构
数据实例
- 总数: 67,480
- 讽刺性: 25,609
- 非讽刺性: 41,817
- 英语文章: 22,837
- 荷兰语文章: 20,771
- 意大利语文章: 23,871
数据字段
article_url: 字符串article_title: 字符串is_sarcastic: 整数lang: 字符串title_length: 整数
数据集创建
源数据
- 从Kaggle数据集中选取所有英语新闻文章标题。
- 随机选取15k荷兰语非讽刺性新闻文章标题。
- 其余数据直接从报纸上抓取。



