josecannete/large_spanish_corpus
收藏Hugging Face2023-06-07 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/josecannete/large_spanish_corpus
下载链接
链接失效反馈官方服务:
资源简介:
大型西班牙语语料库是15个未标注的西班牙语语料库的汇编,涵盖了从维基百科到欧洲议会记录等多种来源。每个配置对应一个不同的语料库,默认配置combined加载所有语料库。该数据集是单语(西班牙语)的,由专家生成,包含多种规模类别,并采用MIT许可证。数据集的结构包括多个配置,每个配置包含一个train分割,其中包含文本数据。
The large Spanish corpus is a compilation of 15 unannotated Spanish-language corpora, covering diverse sources ranging from Wikipedia to European Parliament proceedings. Each configuration corresponds to a distinct corpus, and the default configuration "combined" loads all corpora. This dataset is monolingual (Spanish), expert-curated, includes multiple size categories, and is released under the MIT License. The dataset structure consists of multiple configurations, each of which contains a "train" split that contains the text data.
提供机构:
josecannete
原始信息汇总
数据集概述
数据集名称: The Large Spanish Corpus
语言: 西班牙语 (es)
许可证: MIT
多语言性: 单语
数据集大小:
- 100K<n<1M
- 100M<n<1B
- 10K<n<100K
- 10M<n<100M
- 1M<n<10M
源数据集: 原始
任务类别: 其他
数据集配置和大小:
| 配置名称 | 训练集字节数 | 训练集示例数 |
|---|---|---|
| JRC | 380895504 | 3410620 |
| EMEA | 100259598 | 1221233 |
| GlobalVoices | 114435784 | 897075 |
| ECB | 336285757 | 1875738 |
| DOGC | 898279656 | 10917053 |
| all_wikis | 3782280549 | 28109484 |
| TED | 15858148 | 157910 |
| multiUN | 2327269369 | 13127490 |
| Europarl | 359897865 | 2174141 |
| NewsCommentary11 | 48350573 | 288771 |
| UN | 23654590 | 74067 |
| EUBookShop | 1326861077 | 8214959 |
| ParaCrawl | 1840430234 | 15510649 |
| OpenSubtitles2018 | 7477281776 | 213508602 |
| DGT | 396217351 | 3168368 |
| combined | 19428257807 | 302656160 |
数据集特征:
- 特征名称: text
- 数据类型: string
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个包含15个未标记西班牙语语料的大型语料库,涵盖维基百科、欧洲议会笔记等多种来源,支持多种配置加载。数据集语言为西班牙语,大小在10万到100万之间,采用MIT许可证。
以上内容由遇见数据集搜集并总结生成



