crscardellino/spanish_billion_words
收藏数据集概述
数据集描述
数据集摘要
西班牙十亿词语料库(Spanish Billion Words Corpus)是一个未标注的西班牙语语料库,包含近15亿个单词,从网络上的不同资源编译而成。这些资源包括SenSem的西班牙部分、Ancora语料库、一些OPUS项目语料库和Europarl、Tibidabo树库、IULA西班牙LSP树库以及西班牙维基百科、维基文库和维基教科书的转储。
该语料库由100个文本文件组成,每个文件的每一行代表语料库中的5000万个句子之一。
支持的任务和排行榜
该数据集可用于语言建模和预训练语言模型。
语言
该数据集中的文本为西班牙语,BCP-47代码为es。
数据集结构
数据实例
该数据集中的每个示例都是一句西班牙语:
{text: Yo me coloqué en un asiento próximo a una ventana cogí un libro de una mesa y empecé a leer}
数据字段
text: 西班牙语句子
数据分割
该数据集未进行分割。
数据集创建
策划理由
西班牙十亿词语料库是为了使用gensim包提供的word2vect算法训练词嵌入而创建的。
源数据
初始数据收集和规范化
该语料库是通过编译以下资源创建的:
- SenSem的西班牙部分
- Ancora语料库的西班牙部分
- Tibidabo树库和IULA西班牙LSP树库
- 以下OPUS项目语料库的西班牙部分:
- 由Andras Farkas对齐的书籍
- JRC-Acquis(欧盟立法文本集合)
- News Commentary语料库
- 由Alexandre Rafalovitch和Robert Dale编译的联合国文件
- Europarl(欧洲议会)的西班牙部分
- 2015-09-01的西班牙维基百科、维基文库和维基教科书的转储
所有带标注的语料库(如Ancora、SenSem和Tibidabo)都被去标注化,平行语料库(大多来自OPUS项目)经过预处理,只保留西班牙部分。
一旦整个语料库去标注化,所有非字母数字字符都被替换为空格,所有数字被替换为“DIGITO”标记,所有多个空格被替换为一个空格。
单词的大写保持不变。
源语言生产者
数据由Cristian Cardellino编译和处理。
标注
该数据集未标注。
附加信息
数据集策展人
数据由Cristian Cardellino收集和处理。
许可信息
该数据集根据知识共享署名-相同方式共享4.0国际许可协议(CC BY-SA 4.0)进行许可。
引用信息
@misc{cardellinoSBWCE, author = {Cardellino, Cristian}, title = {Spanish {B}illion {W}ords {C}orpus and {E}mbeddings}, url = {https://crscardellino.github.io/SBWCE/}, month = {August}, year = {2019} }




