vialibre/splittedspanish3bwc

Name: vialibre/splittedspanish3bwc
Creator: vialibre
Published: 2023-01-24 18:17:47
License: 暂无描述

Hugging Face2023-01-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/vialibre/splittedspanish3bwc

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含30亿个单词的西班牙语未标注语料库，总行数为300,904,000行，标记数为2,996,016,962个，字符数为18,431,160,978个。数据集来源包括西班牙语维基、ParaCrawl、EUBookshop、MultiUN、OpenSubtitles等多个子集。数据集使用MIT许可证，并提供了相关的引用信息。

提供机构：

vialibre

原始信息汇总

数据集概述

数据集名称

名称: Unannotated Spanish 3 Billion Words Corpora

语言

语言: 西班牙语

许可

许可: MIT

数据集描述

总结:
- 行数: 300,904,000 (300M)
- 词数: 2,996,016,962 (3B)
- 字符数: 18,431,160,978 (18.4B)

数据来源

来源:
- 西班牙维基: 包括Wikipedia, Wikinews, Wikiquotes等，使用wikiextractor处理2019年4月20日的维基转储。
- ParaCrawl: 西班牙部分
- EUBookshop: 西班牙部分
- MultiUN: 西班牙部分
- OpenSubtitles: 西班牙部分
- DGC: 西班牙部分
- DOGC: 西班牙部分
- ECB: 西班牙部分
- EMEA: 西班牙部分
- Europarl: 西班牙部分
- GlobalVoices: 西班牙部分
- JRC: 西班牙部分
- News-Commentary11: 西班牙部分
- TED: 西班牙部分
- UN: 西班牙部分

许可信息

许可: MIT License

引用信息

@dataset{jose_canete_2019_3247731, author = {José Cañete}, title = {Compilation of Large Spanish Unannotated Corpora}, month = may, year = 2019, publisher = {Zenodo}, doi = {10.5281/zenodo.3247731}, url = {https://doi.org/10.5281/zenodo.3247731} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集