five

mideind/icelandic-common-crawl-corpus-IC3-v2

收藏
Hugging Face2024-06-21 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/mideind/icelandic-common-crawl-corpus-IC3-v2
下载链接
链接失效反馈
官方服务:
资源简介:
冰岛清洁爬取语料库v2(IC3-v2)是一个质量过滤后的冰岛语纯文本文档集合,这些文档是从2013年至2023年期间,从Common Crawl转储中提取的带有.is顶级域名的网站内容。该语料库包含约13亿单词,分布在近400万份文档中。创建过程包括从Common Crawl转储中提取匹配.is TLD的WARC记录,使用手动策划的黑名单去除有害内容,使用trafilatura提取纯文本,并应用多种质量过滤器,最后进行语言识别和去重处理。

冰岛清洁爬取语料库v2(IC3-v2)是一个质量过滤后的冰岛语纯文本文档集合,这些文档是从2013年至2023年期间,从Common Crawl转储中提取的带有.is顶级域名的网站内容。该语料库包含约13亿单词,分布在近400万份文档中。创建过程包括从Common Crawl转储中提取匹配.is TLD的WARC记录,使用手动策划的黑名单去除有害内容,使用trafilatura提取纯文本,并应用多种质量过滤器,最后进行语言识别和去重处理。
提供机构:
mideind
原始信息汇总

数据集卡片:IC3-v2

概述

Icelandic Clean Crawled Corpus v2 (IC3-v2) 是一个从2013年至2023年间从Common Crawl数据集中提取的冰岛语纯文本文档集合。该数据集包含约13亿个单词,分布在近400万个文档中。

数据集详情

  • 数据来源:从Common Crawl数据集中提取所有匹配.is顶级域名(TLD)的WARC记录。
  • 内容过滤:使用手动维护的黑名单移除包含赌博、色情及其他非法或有害内容的网站记录。
  • 文本提取:使用trafilatura工具从原始HTML代码中提取纯文本,并使用jusText作为备用工具。提取过程中,trafilatura提供了如titleauthortags等文档级元数据。
  • 质量过滤:应用手工制作的质量过滤器,类似于Gopher规则和FineWeb过滤器,以排除低质量文档,如SEO产品页面、重复句子较多的文档等。
  • 语言识别:使用FAIR的fasttext语言识别模型,仅保留高比例冰岛语文本的文档。
  • 去重处理:通过滑动窗口和文档级精确字符串匹配两种方式进行去重处理。

注意事项

尽管已尽力通过URL过滤有害内容,但仍可能存在部分有害文档。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作