five

LHF/escorpius-m

收藏
Hugging Face2023-05-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/LHF/escorpius-m
下载链接
链接失效反馈
官方服务:
资源简介:
esCorpius Multilingual是一个多语言爬取语料库,来源于近1 Pb的Common Crawl数据。它是某些语言中规模最大且质量最高的语料库,涵盖了网页文本内容的提取、净化和去重。数据整理过程包括一个新颖的高度并行清洗管道和一系列去重机制,确保文档和段落边界的完整性。此外,数据集保留了源网页URL和WARC分片源URL,以符合欧盟法规。esCorpius-m采用CC BY-NC-ND 4.0许可证发布。
提供机构:
LHF
原始信息汇总

esCorpius Multilingual 数据集概述

基本信息

  • 许可证: CC BY-NC-ND 4.0
  • 语言多样性: 支持多种语言,包括但不限于 af, ar, bn, ca, cs, da, de, el, eu, fa, fi, fr, gl, hi, hr, it, ja, ko, mt, nl, no, oc, pa, pl, pt, ro, sl, sr, sv, tr, uk, ur
  • 多语言性: 多语言
  • 数据集大小: 100B<n<1T
  • 数据来源: 原始数据

任务类型

  • 任务类别:
    • 文本生成
    • 填充掩码
  • 任务ID:
    • 语言建模
    • 掩码语言建模

数据集描述

esCorpius-m 是一个从近1 Pb的Common Crawl数据中提取的多语言爬虫语料库。它是某些覆盖语言中最广泛的语料库,具有高水平的提取、净化和去重质量。数据采集过程包括一个新颖的高并行清洗管道和一系列去重机制,确保文档和段落边界的完整性。同时,保留了源网页URL和WARC分片原始URL以符合欧盟法规。

使用示例

python dataset = load_dataset(LHF/escorpius-m, split=train, streaming=True, revision=it)

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作