tamedai/oscar_eu_6x3M

Name: tamedai/oscar_eu_6x3M
Creator: tamedai
Published: 2024-01-08 13:48:34
License: 暂无描述

Hugging Face2024-01-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/tamedai/oscar_eu_6x3M

下载链接

链接失效反馈

官方服务：

资源简介：

OSCAR EU 6x3M数据集是从更大的OSCAR语料库中精心挑选的子集，特别关注主要的欧洲语言。该数据集包括六种语言的平衡表示：英语（en）、德语（de）、西班牙语（es）、意大利语（it）、法语（fr）和俄语（ru）。名称中的“6x3M”表示每种语言大约有300万份随机抽样的文档，提供了一个全面且多样化的语言资源。数据集来源于OSCAR语料库，这是一个从Common Crawl创建的大型多语言语料库。该数据集适用于多种自然语言处理应用，包括但不限于多语言语言建模、跨语言迁移学习、语言识别和分类以及比较语言学研究。

提供机构：

tamedai

原始信息汇总

OSCAR EU 6x3M 数据集

概述

OSCAR EU 6x3M 数据集是 OSCAR 语料库的一个精心筛选的子集，特别关注主要的欧洲语言。该数据集包括六种语言的平衡表示：英语（en）、德语（de）、西班牙语（es）、意大利语（it）、法语（fr）和俄语（ru）。名称中的 "6x3M" 表示每种语言大约包含 300 万个随机抽样的文档，提供了一个全面且多样化的语言资源。

数据集描述

包含语言：英语、德语、西班牙语、意大利语、法语、俄语
文档数量：约 1800 万（每种语言约 300 万）
数据来源：该数据集源自 OSCAR 语料库，这是一个从 Common Crawl 创建的大型多语言语料库。

使用场景

该数据集适用于多种自然语言处理应用，包括但不限于：

多语言语言模型
跨语言迁移学习
语言识别和分类
比较语言学研究

访问数据集

该数据集可通过 HuggingFace Datasets 库获取。您可以使用以下代码片段加载数据集： python from datasets import load_dataset

dataset = load_dataset("oscar_eu_6x3M")

5,000+

优质数据集

54 个

任务类型

进入经典数据集