five

LHF/escorpius

收藏
Hugging Face2023-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/LHF/escorpius
下载链接
链接失效反馈
官方服务:
资源简介:
esCorpius是一个从近1 Pb的Common Crawl数据中获取的西班牙语爬取语料库。该语料库在提取、净化和去重方面具有高质量,是西班牙语中最广泛的语料库之一。数据集的创建过程包括一个新颖的高度并行清理管道和一系列去重机制,以确保文档和段落边界的完整性。此外,数据集还保留了源网页URL和WARC分片源URL,以符合欧盟法规。esCorpius数据集已发布在CC BY-NC-ND 4.0许可证下。

esCorpius is a Spanish crawled corpus sourced from nearly 1 petabyte of Common Crawl data. It boasts high quality in extraction, purification and deduplication, and is one of the largest corpora available for the Spanish language. The dataset's creation process includes a novel highly parallel cleaning pipeline and a series of deduplication mechanisms to ensure the integrity of document and paragraph boundaries. Furthermore, the dataset retains both the source web page URLs and WARC shard source URLs to comply with EU regulations. The esCorpius dataset is released under the CC BY-NC-ND 4.0 license.
提供机构:
LHF
原始信息汇总

esCorpius: A Massive Spanish Crawling Corpus

数据集概述

  • 语言: 西班牙语
  • 多语言性: 单语种
  • 大小: 100M<n<1B
  • 数据来源: 原始数据
  • 任务类别:
    • 文本生成
    • 填充掩码
  • 任务ID:
    • 语言建模
    • 掩码语言建模
  • 许可证: CC BY-NC-ND 4.0

数据集详情

  • 数据集大小: 322.5 GB
  • 文档数量: 104M
  • 单词数量: 50,773M
  • 语言标识符: CLD2 + fastText
  • 数据元素: 文档和段落
  • 解析质量: 高
  • 清洗质量: 高
  • 去重: dLHF
  • 语言: 西班牙语
  • 许可证: CC BY-NC-ND 4.0
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作