tamedai/oscar_eu_6x3M
收藏Hugging Face2024-01-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tamedai/oscar_eu_6x3M
下载链接
链接失效反馈官方服务:
资源简介:
OSCAR EU 6x3M数据集是从更大的OSCAR语料库中精心挑选的子集,特别关注主要的欧洲语言。该数据集包括六种语言的平衡表示:英语(en)、德语(de)、西班牙语(es)、意大利语(it)、法语(fr)和俄语(ru)。名称中的“6x3M”表示每种语言大约有300万份随机抽样的文档,提供了一个全面且多样化的语言资源。数据集来源于OSCAR语料库,这是一个从Common Crawl创建的大型多语言语料库。该数据集适用于多种自然语言处理应用,包括但不限于多语言语言建模、跨语言迁移学习、语言识别和分类以及比较语言学研究。
OSCAR EU 6x3M数据集是从更大的OSCAR语料库中精心挑选的子集,特别关注主要的欧洲语言。该数据集包括六种语言的平衡表示:英语(en)、德语(de)、西班牙语(es)、意大利语(it)、法语(fr)和俄语(ru)。名称中的“6x3M”表示每种语言大约有300万份随机抽样的文档,提供了一个全面且多样化的语言资源。数据集来源于OSCAR语料库,这是一个从Common Crawl创建的大型多语言语料库。该数据集适用于多种自然语言处理应用,包括但不限于多语言语言建模、跨语言迁移学习、语言识别和分类以及比较语言学研究。
提供机构:
tamedai
原始信息汇总
OSCAR EU 6x3M 数据集
概述
OSCAR EU 6x3M 数据集是 OSCAR 语料库的一个精心筛选的子集,特别关注主要的欧洲语言。该数据集包括六种语言的平衡表示:英语(en)、德语(de)、西班牙语(es)、意大利语(it)、法语(fr)和俄语(ru)。名称中的 "6x3M" 表示每种语言大约包含 300 万个随机抽样的文档,提供了一个全面且多样化的语言资源。
数据集描述
- 包含语言:英语、德语、西班牙语、意大利语、法语、俄语
- 文档数量:约 1800 万(每种语言约 300 万)
- 数据来源:该数据集源自 OSCAR 语料库,这是一个从 Common Crawl 创建的大型多语言语料库。
使用场景
该数据集适用于多种自然语言处理应用,包括但不限于:
- 多语言语言模型
- 跨语言迁移学习
- 语言识别和分类
- 比较语言学研究
访问数据集
该数据集可通过 HuggingFace Datasets 库获取。您可以使用以下代码片段加载数据集: python from datasets import load_dataset
dataset = load_dataset("oscar_eu_6x3M")



