alexandrainst/scandi-reddit

Name: alexandrainst/scandi-reddit
Creator: alexandrainst
Published: 2024-09-24 11:04:06
License: 暂无描述

Hugging Face2024-09-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/alexandrainst/scandi-reddit

下载链接

链接失效反馈

官方服务：

资源简介：

ScandiReddit是一个经过过滤和后处理的语料库，包含来自Reddit的评论。数据集涵盖了从2005年12月到2022年10月的所有Reddit评论，这些评论通过PushShift下载，并使用FastText语言检测模型进行过滤，保留了被分类为丹麦语（da）、挪威语（no）、瑞典语（sv）或冰岛语（is）且置信度超过70%的评论。处理过程中，去除了约438,000条重复评论、5,000条由Reddit机器人撰写的评论以及约189,000条属于不适当子论坛（如色情和毒品相关）的评论。最后，还去除了约40,000条近重复评论（即评论中有超过80%的5-gram重叠）。数据集的主要用途是训练语言模型。

ScandiReddit is a filtered and post-processed corpus consisting of comments from Reddit. The dataset includes all Reddit comments from December 2005 up until October 2022, which were downloaded through PushShift and filtered using the FastText language detection model. Comments classified as Danish (`da`), Norwegian (`no`), Swedish (`sv`), or Icelandic (`is`) with a confidence score above 70% were retained. During processing, approximately 438,000 duplicate comments, 5,000 comments written by Reddit bots, and roughly 189,000 comments belonging to inappropriate subreddits (e.g., explicit and drug-related) were removed. Additionally, about 40,000 near-duplicate comments (where comments share more than 80% of their word 5-grams) were also removed. The primary intended use of this dataset is for training language models.

提供机构：

alexandrainst

原始信息汇总

数据集卡片：ScandiReddit

数据集描述

数据集概述

ScandiReddit是一个经过筛选和后处理的语料库，包含来自Reddit的评论。所有Reddit评论从2005年12月到2022年10月通过PushShift下载，然后根据FastText语言检测模型进行过滤。任何被分类为丹麦语(da)、挪威语(no)、瑞典语(sv)或冰岛语(is)且置信度得分高于70%的评论被保留。

最终的评论经过去重处理，删除了约438,000条评论。删除了5,000条由Reddit机器人撰写的评论，以及约189,000条属于不适当子版块（涉及色情和毒品）的评论。最后，从最终语料库中删除了约40,000条近似重复的评论，这里的近似重复指的是评论的5-gram词汇有超过80%的共同部分。

支持的任务和排行榜

该数据集旨在用于训练语言模型，目前没有活跃的排行榜。

语言

数据集提供丹麦语(da)、瑞典语(sv)、挪威语(no)和冰岛语(is)版本。

数据集结构

数据实例

数据集的示例如下： json { doc: Bergen er ødelagt. Det er ikke moro mer., subreddit: Norway, language: da, language_confidence: 0.7472341656684875 }

数据字段

所有分割中的数据字段相同：

doc: 字符串特征。
subreddit: 字符串特征。
language: 字符串特征。
language_confidence: 浮点数特征。

语言分布

名称	数量
sv	6,967,420
da	4,965,195
no	1,340,470
is	206,689
total	13,479,774

前50个子版块分布

名称	数量
sweden	4,881,483
Denmark	3,579,178
norge	1,281,655
svenskpolitik	771,960
InfluencergossipDK	649,910
swedishproblems	339,683
Iceland	183,488
dkfinance	113,860
unket	81,077
DanishEnts	69,055
dankmark	62,928
swedents	58,576
scandinavia	57,136
Allsvenskan	56,006
Gothenburg	54,395
stockholm	51,016
ISKbets	47,944
Sverige	39,552
SWARJE	34,691
GossipDK	29,332
NorskFotball	28,571
Superligaen	23,641
Aarhus	22,516
Svenska	20,561
newsdk	19,893
AskReddit	16,672
copenhagen	16,668
okpolarncp	16,583
SwedditUniversalis	15,990
Sveriges_politik	15,058
intresseklubben	13,246
Aktiemarknaden	13,202
soccer	12,637
teenagers	10,845
Norway	10,680
europe	10,247
Matinbum	9,792
oslo	9,650
iksdagen	9,232
Asksweddit	8,851
Forsvaret	8,641
Sverigesforsvarsmakt	8,469
memes	8,299
Danish	8,268
DANMAG	8,214
PewdiepieSubmissions	7,800
sweddpolitik	7,646
pinsamt	7,318
arbetarrorelsen	7,317
Ishockey	6,824