djstrong/oscar-small

Name: djstrong/oscar-small
Creator: djstrong
Published: 2023-03-07 19:57:38
License: 暂无描述

Hugging Face2023-03-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/djstrong/oscar-small

下载链接

链接失效反馈

官方服务：

资源简介：

OSCAR（Open Super-large Crawled ALMAnaCH coRpus）是一个巨大的多语言语料库，通过对Common Crawl语料库进行语言分类和过滤获得。数据按语言分发，提供原始版本和去重版本。该数据集主要用于预训练语言模型和词表示，包含166种语言。数据集的创建使用了goclassy架构，该架构基于fastText的线性分类器，并进行了并行化处理。数据集未包含额外的注释，但可能包含个人和敏感信息，使用时需谨慎。

OSCAR (Open Super-large Crawled ALMAnaCH coRpus) is a massive multilingual corpus obtained by conducting language classification and filtering on the Common Crawl corpus. The dataset is distributed by language, with both raw and deduplicated versions available. This dataset includes 166 languages and is primarily used for pre-training language models and word representations. It was constructed using the goclassy architecture, which is based on fastText's linear classifier and has been parallelized. No additional annotations are included in this dataset; however, it may contain personal and sensitive information, requiring careful usage.

提供机构：

djstrong

原始信息汇总

数据集概述

名称: OSCAR (Open Super-large Crawled ALMAnaCH coRpus)

类型: 多语言文本数据集

语言: 包含166种语言，如af, am, ar, arz, as, az, azb, ba, be, bg, bn, bo, br, ca, ce, ceb, ckb, cs, cv, cy, da, de, dv, el, en, eo, es, et, eu, fa, fi, fr, fy, ga, gl, gu, he, hi, hr, hu, hy, id, is, it, ja, ka, kk, km, kn, ko, ku, ky, la, lb, lo, lt, lv, mg, mhr, mk, ml, mn, mr, ms, mt, my, nds, ne, nl, nn, no, or, os, pa, pl, pnb, ps, pt, ro, ru, sa, sah, sd, sh, si, sk, sl, sq, sr, sv, sw, ta, te, tg, th, tk, tl, tr, tt, ug, uk, ur, uz, vi, yi, zh等。

来源: 通过语言分类和过滤Common Crawl数据集构建。

用途: 主要用于预训练语言模型和词表示。

许可证: CC0-1.0

数据集结构

数据实例: 数据集由多个语言的文本文件组成，每个文件包含多个网站的纯文本及其元数据头。
数据字段: 包括原始文本和元数据信息。
数据分割: 数据集被分割成多个分片并压缩。

数据集创建

筛选理由: 使用goclassy架构从Common Crawl中提取和分类数据，以支持多语言应用。
源数据: 从Common Crawl的WET文件中提取，使用2018年11月的快照，超过20TB未压缩数据。
注释: 数据集不包含额外注释。
个人和敏感信息: 可能包含个人和敏感信息，使用时需谨慎。

使用数据集的考虑

社会影响: 旨在为多种语言提供大量数据，特别是低资源语言，以支持先进的语言模型预训练。
偏见讨论: 数据集尚未完全过滤，可能导致训练模型中存在偏见。
其他已知限制: 使用的fastText线性分类器在性能和可识别语言种类上有限，可能影响某些子语料库的质量。

附加信息

数据集管理员: Pedro J. Ortiz, Benoît Sagot, Laurent Romary。
贡献者: 感谢@pjox和@lhoestq为该数据集的添加做出的贡献。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，大规模多语言语料库的构建是推动模型泛化能力的关键。OSCAR-small数据集源自OSCAR语料库的精简版本，其构建过程依托于goclassy架构，该架构对Common Crawl的原始WET文件进行异步并行处理。通过语言分类与过滤，系统自动识别并整理出涵盖166种语言的文本数据，同时执行去重与分片压缩，确保数据在低资源环境下的高效可用性。这一流程不仅优化了I/O效率，还保留了原始语料的多样性，为多语言研究提供了结构化基础。

特点

该数据集的核心特征在于其广泛的多语言覆盖与大规模文本容量。它囊括了从高资源到低资源的166种语言，每种子集均提供原始及去重版本，支持跨语言模型的对比与训练。数据来源于Common Crawl的2018年11月快照，未经人工标注，保留了网络文本的原始分布与噪声，这既增强了语料的真实性，也引入了潜在的偏见与敏感信息。此外，数据集以CC0协议发布，促进了学术与工业界的无障碍使用，但需注意其在内容过滤方面的局限性。

使用方法

OSCAR-small数据集主要用于语言模型的预训练与词表示学习。研究者可通过HuggingFace平台直接加载数据，按语言代码选择特定子集进行实验。在低资源场景下，该数据集能模拟完整OSCAR语料库的分布特性，适用于多语言文本生成、词性标注及句法分析等任务。使用前需评估数据中可能存在的个人敏感信息与偏见，并结合去重版本以减少冗余。建议参考官方审计报告，以优化模型在不同语言上的性能表现。

背景与挑战

背景概述

OSCAR数据集由法国国家信息与自动化研究所（Inria）的ALMAnaCH团队于2019年构建，核心研究人员包括Pedro J. Ortiz、Benoît Sagot和Laurent Romary。该数据集旨在通过语言分类与过滤技术，从Common Crawl大规模网络爬取语料中提取多语言文本，以支持中低资源语言的预训练模型开发。其核心研究问题聚焦于解决多语言自然语言处理中数据稀缺的困境，特别是为资源有限的语言提供高质量的语料基础，从而推动跨语言模型与单语上下文嵌入的性能提升，对计算语言学领域产生了深远影响。

当前挑战

OSCAR数据集面临的挑战主要体现在两个方面：在领域问题层面，其致力于解决多语言文本生成与语言建模中数据分布不均的难题，尤其需应对低资源语言语料匮乏导致的模型性能瓶颈；在构建过程中，挑战源于Common Crawl原始数据的异构性与噪声，包括语言识别精度受限、无效字符过滤、以及大规模并行处理中的I/O速度约束。此外，数据中可能包含的个人敏感信息与未充分过滤的偏见内容，也为模型训练带来了潜在风险。

常用场景

经典使用场景

在自然语言处理领域，多语言语料库的构建对于推动语言模型预训练至关重要。OSCAR-small数据集作为OSCAR语料库的轻量化版本，其经典使用场景在于为资源受限环境下的多语言语言模型预训练提供支持。该数据集通过从Common Crawl中提取并分类的文本，覆盖了包括非洲、亚洲及欧洲等多种语言，使得研究者能够在计算资源有限的情况下，模拟大规模语料训练过程，进而优化模型在多语言语境下的表征能力。

解决学术问题

OSCAR-small数据集有效应对了中低资源语言在自然语言处理研究中数据匮乏的学术挑战。通过提供经过语言分类和去重的多语言文本，该数据集使得研究者能够训练出性能更优的上下文词嵌入模型，如ELMo。相较于传统基于维基百科的语料，OSCAR-small在词性标注和句法分析等任务中展现出显著优势，甚至超越了多语言BERT模型的表现，从而证实了大规模多样化语料在提升模型跨语言理解能力方面的关键作用。

衍生相关工作

围绕OSCAR-small数据集，学术界衍生了一系列经典研究工作。其中，Ortiz Suárez等人提出的基于OSCOR语料的单语上下文词嵌入方法，显著提升了中资源语言在词性标注和句法分析任务上的性能。此外，该数据集还促进了异步处理管道技术goclassy的发展，该技术优化了大语料在中等至低资源基础设施上的处理效率，为后续大规模多语言语料库的构建和利用提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集