mideind/icelandic-common-crawl-corpus-IC3-v2

Name: mideind/icelandic-common-crawl-corpus-IC3-v2
Creator: mideind
Published: 2024-06-21 15:13:10
License: 暂无描述

Hugging Face2024-06-21 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/mideind/icelandic-common-crawl-corpus-IC3-v2

下载链接

链接失效反馈

官方服务：

资源简介：

冰岛清洁爬取语料库v2（IC3-v2）是一个质量过滤后的冰岛语纯文本文档集合，这些文档是从2013年至2023年期间，从Common Crawl转储中提取的带有.is顶级域名的网站内容。该语料库包含约13亿单词，分布在近400万份文档中。创建过程包括从Common Crawl转储中提取匹配.is TLD的WARC记录，使用手动策划的黑名单去除有害内容，使用trafilatura提取纯文本，并应用多种质量过滤器，最后进行语言识别和去重处理。

提供机构：

mideind

原始信息汇总

数据集卡片：IC3-v2

概述

Icelandic Clean Crawled Corpus v2 (IC3-v2) 是一个从2013年至2023年间从Common Crawl数据集中提取的冰岛语纯文本文档集合。该数据集包含约13亿个单词，分布在近400万个文档中。

数据集详情

数据来源：从Common Crawl数据集中提取所有匹配.is顶级域名（TLD）的WARC记录。
内容过滤：使用手动维护的黑名单移除包含赌博、色情及其他非法或有害内容的网站记录。
文本提取：使用trafilatura工具从原始HTML代码中提取纯文本，并使用jusText作为备用工具。提取过程中，trafilatura提供了如title、author和tags等文档级元数据。
质量过滤：应用手工制作的质量过滤器，类似于Gopher规则和FineWeb过滤器，以排除低质量文档，如SEO产品页面、重复句子较多的文档等。
语言识别：使用FAIR的fasttext语言识别模型，仅保留高比例冰岛语文本的文档。
去重处理：通过滑动窗口和文档级精确字符串匹配两种方式进行去重处理。

注意事项

尽管已尽力通过URL过滤有害内容，但仍可能存在部分有害文档。

5,000+

优质数据集

54 个

任务类型

进入经典数据集