mideind/icelandic-common-crawl-corpus-IC3-v2
收藏Hugging Face2024-06-21 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/mideind/icelandic-common-crawl-corpus-IC3-v2
下载链接
链接失效反馈官方服务:
资源简介:
冰岛清洁爬取语料库v2(IC3-v2)是一个质量过滤后的冰岛语纯文本文档集合,这些文档是从2013年至2023年期间,从Common Crawl转储中提取的带有.is顶级域名的网站内容。该语料库包含约13亿单词,分布在近400万份文档中。创建过程包括从Common Crawl转储中提取匹配.is TLD的WARC记录,使用手动策划的黑名单去除有害内容,使用trafilatura提取纯文本,并应用多种质量过滤器,最后进行语言识别和去重处理。
冰岛清洁爬取语料库v2(IC3-v2)是一个质量过滤后的冰岛语纯文本文档集合,这些文档是从2013年至2023年期间,从Common Crawl转储中提取的带有.is顶级域名的网站内容。该语料库包含约13亿单词,分布在近400万份文档中。创建过程包括从Common Crawl转储中提取匹配.is TLD的WARC记录,使用手动策划的黑名单去除有害内容,使用trafilatura提取纯文本,并应用多种质量过滤器,最后进行语言识别和去重处理。
提供机构:
mideind
原始信息汇总
数据集卡片:IC3-v2
概述
Icelandic Clean Crawled Corpus v2 (IC3-v2) 是一个从2013年至2023年间从Common Crawl数据集中提取的冰岛语纯文本文档集合。该数据集包含约13亿个单词,分布在近400万个文档中。
数据集详情
- 数据来源:从Common Crawl数据集中提取所有匹配
.is顶级域名(TLD)的WARC记录。 - 内容过滤:使用手动维护的黑名单移除包含赌博、色情及其他非法或有害内容的网站记录。
- 文本提取:使用
trafilatura工具从原始HTML代码中提取纯文本,并使用jusText作为备用工具。提取过程中,trafilatura提供了如title、author和tags等文档级元数据。 - 质量过滤:应用手工制作的质量过滤器,类似于Gopher规则和FineWeb过滤器,以排除低质量文档,如SEO产品页面、重复句子较多的文档等。
- 语言识别:使用FAIR的
fasttext语言识别模型,仅保留高比例冰岛语文本的文档。 - 去重处理:通过滑动窗口和文档级精确字符串匹配两种方式进行去重处理。
注意事项
尽管已尽力通过URL过滤有害内容,但仍可能存在部分有害文档。



