vialibre/splittedspanish3bwc
收藏Hugging Face2023-01-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vialibre/splittedspanish3bwc
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个包含30亿个单词的西班牙语未标注语料库,总行数为300,904,000行,标记数为2,996,016,962个,字符数为18,431,160,978个。数据集来源包括西班牙语维基、ParaCrawl、EUBookshop、MultiUN、OpenSubtitles等多个子集。数据集使用MIT许可证,并提供了相关的引用信息。
该数据集是一个包含30亿个单词的西班牙语未标注语料库,总行数为300,904,000行,标记数为2,996,016,962个,字符数为18,431,160,978个。数据集来源包括西班牙语维基、ParaCrawl、EUBookshop、MultiUN、OpenSubtitles等多个子集。数据集使用MIT许可证,并提供了相关的引用信息。
提供机构:
vialibre
原始信息汇总
数据集概述
数据集名称
- 名称: Unannotated Spanish 3 Billion Words Corpora
语言
- 语言: 西班牙语
许可
- 许可: MIT
数据集描述
- 总结:
- 行数: 300,904,000 (300M)
- 词数: 2,996,016,962 (3B)
- 字符数: 18,431,160,978 (18.4B)
数据来源
- 来源:
- 西班牙维基: 包括Wikipedia, Wikinews, Wikiquotes等,使用wikiextractor处理2019年4月20日的维基转储。
- ParaCrawl: 西班牙部分
- EUBookshop: 西班牙部分
- MultiUN: 西班牙部分
- OpenSubtitles: 西班牙部分
- DGC: 西班牙部分
- DOGC: 西班牙部分
- ECB: 西班牙部分
- EMEA: 西班牙部分
- Europarl: 西班牙部分
- GlobalVoices: 西班牙部分
- JRC: 西班牙部分
- News-Commentary11: 西班牙部分
- TED: 西班牙部分
- UN: 西班牙部分
许可信息
- 许可: MIT License
引用信息
@dataset{jose_canete_2019_3247731, author = {José Cañete}, title = {Compilation of Large Spanish Unannotated Corpora}, month = may, year = 2019, publisher = {Zenodo}, doi = {10.5281/zenodo.3247731}, url = {https://doi.org/10.5281/zenodo.3247731} }



