five

eduagarcia/mc4-pt_dedup

收藏
Hugging Face2024-02-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/eduagarcia/mc4-pt_dedup
下载链接
链接失效反馈
官方服务:
资源简介:
MC4-PT是MC4数据集的葡萄牙语子集,MC4是一个多语言的、经过清理的Common Crawl网页爬取语料库。该版本通过MinHash算法和局部敏感哈希进行去重,原始版本也可用。数据收集和处理使用了5-grams和大小为256的签名,设定Jaccard相似度超过0.7的文档被认为是相同的。

MC4-PT is the Portuguese subset of the multilingual colossal version of Common Crawls web crawl corpus, MC4. This version is deduplicated using the MinHash algorithm and Locality Sensitive Hashing, following the approach of Lee et al. The dataset includes features such as text, timestamp, and URL, divided into a training set with a large number of bytes and examples. Data collection and processing involve the use of 5-grams and a signature size of 256, considering two documents identical if their Jaccard Similarity exceeds 0.7.
提供机构:
eduagarcia
原始信息汇总

MC4-PT (去重版本)

数据集信息

特征

  • text: 数据类型为字符串。
  • timestamp: 数据类型为字符串。
  • url: 数据类型为字符串。

数据分割

  • train:
    • 字节数: 488218826601
    • 样本数: 161689320

数据大小

  • 下载大小: 52220169137
  • 数据集大小: 488218826601

数据收集和处理

数据集使用5-grams和大小为256的签名进行去重处理,如果两个文档的Jaccard相似度超过0.7,则认为它们是相同的。去重方法采用MinHash算法和局部敏感哈希(Locality Sensitive Hashing),遵循Lee等人的方法(2022年)。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作