five

vialibre/splittedspanish3bwc

收藏
Hugging Face2023-01-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vialibre/splittedspanish3bwc
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个包含30亿个单词的西班牙语未标注语料库,总行数为300,904,000行,标记数为2,996,016,962个,字符数为18,431,160,978个。数据集来源包括西班牙语维基、ParaCrawl、EUBookshop、MultiUN、OpenSubtitles等多个子集。数据集使用MIT许可证,并提供了相关的引用信息。

该数据集是一个包含30亿个单词的西班牙语未标注语料库,总行数为300,904,000行,标记数为2,996,016,962个,字符数为18,431,160,978个。数据集来源包括西班牙语维基、ParaCrawl、EUBookshop、MultiUN、OpenSubtitles等多个子集。数据集使用MIT许可证,并提供了相关的引用信息。
提供机构:
vialibre
原始信息汇总

数据集概述

数据集名称

  • 名称: Unannotated Spanish 3 Billion Words Corpora

语言

  • 语言: 西班牙语

许可

  • 许可: MIT

数据集描述

  • 总结:
    • 行数: 300,904,000 (300M)
    • 词数: 2,996,016,962 (3B)
    • 字符数: 18,431,160,978 (18.4B)

数据来源

  • 来源:
    • 西班牙维基: 包括Wikipedia, Wikinews, Wikiquotes等,使用wikiextractor处理2019年4月20日的维基转储。
    • ParaCrawl: 西班牙部分
    • EUBookshop: 西班牙部分
    • MultiUN: 西班牙部分
    • OpenSubtitles: 西班牙部分
    • DGC: 西班牙部分
    • DOGC: 西班牙部分
    • ECB: 西班牙部分
    • EMEA: 西班牙部分
    • Europarl: 西班牙部分
    • GlobalVoices: 西班牙部分
    • JRC: 西班牙部分
    • News-Commentary11: 西班牙部分
    • TED: 西班牙部分
    • UN: 西班牙部分

许可信息

  • 许可: MIT License

引用信息

@dataset{jose_canete_2019_3247731, author = {José Cañete}, title = {Compilation of Large Spanish Unannotated Corpora}, month = may, year = 2019, publisher = {Zenodo}, doi = {10.5281/zenodo.3247731}, url = {https://doi.org/10.5281/zenodo.3247731} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作