crscardellino/spanish_billion_words

Name: crscardellino/spanish_billion_words
Creator: crscardellino
Published: 2024-01-18 11:16:08
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/crscardellino/spanish_billion_words

下载链接

链接失效反馈

官方服务：

资源简介：

Spanish Billion Words语料库是一个未标注的西班牙语语料库，包含近15亿个单词，来源于多个网络资源。这些资源包括SenSem的西班牙语部分、Ancora语料库、OPUS项目语料库的部分内容、Europarl、Tibidabo树库、IULA西班牙LSP树库以及西班牙维基百科、维基文库和维基教科书的转储。该语料库由100个文本文件组成，每个文件的一行代表语料库中的5000万个句子之一。数据集主要用于语言建模和预训练语言模型。

提供机构：

crscardellino

原始信息汇总

数据集概述

数据集描述

数据集摘要

西班牙十亿词语料库（Spanish Billion Words Corpus）是一个未标注的西班牙语语料库，包含近15亿个单词，从网络上的不同资源编译而成。这些资源包括SenSem的西班牙部分、Ancora语料库、一些OPUS项目语料库和Europarl、Tibidabo树库、IULA西班牙LSP树库以及西班牙维基百科、维基文库和维基教科书的转储。

该语料库由100个文本文件组成，每个文件的每一行代表语料库中的5000万个句子之一。

支持的任务和排行榜

该数据集可用于语言建模和预训练语言模型。

语言

该数据集中的文本为西班牙语，BCP-47代码为es。

数据集结构

数据实例

该数据集中的每个示例都是一句西班牙语：

{text: Yo me coloqué en un asiento próximo a una ventana cogí un libro de una mesa y empecé a leer}

数据字段

text: 西班牙语句子

数据分割

该数据集未进行分割。

数据集创建

策划理由

西班牙十亿词语料库是为了使用gensim包提供的word2vect算法训练词嵌入而创建的。

源数据

初始数据收集和规范化

该语料库是通过编译以下资源创建的：

SenSem的西班牙部分
Ancora语料库的西班牙部分
Tibidabo树库和IULA西班牙LSP树库
以下OPUS项目语料库的西班牙部分：
- 由Andras Farkas对齐的书籍
- JRC-Acquis（欧盟立法文本集合）
- News Commentary语料库
- 由Alexandre Rafalovitch和Robert Dale编译的联合国文件
Europarl（欧洲议会）的西班牙部分
2015-09-01的西班牙维基百科、维基文库和维基教科书的转储

所有带标注的语料库（如Ancora、SenSem和Tibidabo）都被去标注化，平行语料库（大多来自OPUS项目）经过预处理，只保留西班牙部分。

一旦整个语料库去标注化，所有非字母数字字符都被替换为空格，所有数字被替换为“DIGITO”标记，所有多个空格被替换为一个空格。

单词的大写保持不变。

源语言生产者

数据由Cristian Cardellino编译和处理。

标注

该数据集未标注。

附加信息

数据集策展人

数据由Cristian Cardellino收集和处理。

许可信息

该数据集根据知识共享署名-相同方式共享4.0国际许可协议（CC BY-SA 4.0）进行许可。

引用信息

@misc{cardellinoSBWCE, author = {Cardellino, Cristian}, title = {Spanish {B}illion {W}ords {C}orpus and {E}mbeddings}, url = {https://crscardellino.github.io/SBWCE/}, month = {August}, year = {2019} }

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集