eduagarcia/mc4-pt_dedup
收藏Hugging Face2024-02-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/eduagarcia/mc4-pt_dedup
下载链接
链接失效反馈官方服务:
资源简介:
MC4-PT是MC4数据集的葡萄牙语子集,MC4是一个多语言的、经过清理的Common Crawl网页爬取语料库。该版本通过MinHash算法和局部敏感哈希进行去重,原始版本也可用。数据收集和处理使用了5-grams和大小为256的签名,设定Jaccard相似度超过0.7的文档被认为是相同的。
MC4-PT is the Portuguese subset of the multilingual colossal version of Common Crawls web crawl corpus, MC4. This version is deduplicated using the MinHash algorithm and Locality Sensitive Hashing, following the approach of Lee et al. The dataset includes features such as text, timestamp, and URL, divided into a training set with a large number of bytes and examples. Data collection and processing involve the use of 5-grams and a signature size of 256, considering two documents identical if their Jaccard Similarity exceeds 0.7.
提供机构:
eduagarcia
原始信息汇总
MC4-PT (去重版本)
数据集信息
特征
- text: 数据类型为字符串。
- timestamp: 数据类型为字符串。
- url: 数据类型为字符串。
数据分割
- train:
- 字节数: 488218826601
- 样本数: 161689320
数据大小
- 下载大小: 52220169137
- 数据集大小: 488218826601
数据收集和处理
数据集使用5-grams和大小为256的签名进行去重处理,如果两个文档的Jaccard相似度超过0.7,则认为它们是相同的。去重方法采用MinHash算法和局部敏感哈希(Locality Sensitive Hashing),遵循Lee等人的方法(2022年)。



