five

crscardellino/spanish_billion_words

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/crscardellino/spanish_billion_words
下载链接
链接失效反馈
官方服务:
资源简介:
Spanish Billion Words语料库是一个未标注的西班牙语语料库,包含近15亿个单词,来源于多个网络资源。这些资源包括SenSem的西班牙语部分、Ancora语料库、OPUS项目语料库的部分内容、Europarl、Tibidabo树库、IULA西班牙LSP树库以及西班牙维基百科、维基文库和维基教科书的转储。该语料库由100个文本文件组成,每个文件的一行代表语料库中的5000万个句子之一。数据集主要用于语言建模和预训练语言模型。

Spanish Billion Words语料库是一个未标注的西班牙语语料库,包含近15亿个单词,来源于多个网络资源。这些资源包括SenSem的西班牙语部分、Ancora语料库、OPUS项目语料库的部分内容、Europarl、Tibidabo树库、IULA西班牙LSP树库以及西班牙维基百科、维基文库和维基教科书的转储。该语料库由100个文本文件组成,每个文件的一行代表语料库中的5000万个句子之一。数据集主要用于语言建模和预训练语言模型。
提供机构:
crscardellino
原始信息汇总

数据集概述

数据集描述

数据集摘要

西班牙十亿词语料库(Spanish Billion Words Corpus)是一个未标注的西班牙语语料库,包含近15亿个单词,从网络上的不同资源编译而成。这些资源包括SenSem的西班牙部分、Ancora语料库、一些OPUS项目语料库和Europarl、Tibidabo树库、IULA西班牙LSP树库以及西班牙维基百科、维基文库和维基教科书的转储。

该语料库由100个文本文件组成,每个文件的每一行代表语料库中的5000万个句子之一。

支持的任务和排行榜

该数据集可用于语言建模和预训练语言模型。

语言

该数据集中的文本为西班牙语,BCP-47代码为es。

数据集结构

数据实例

该数据集中的每个示例都是一句西班牙语:

{text: Yo me coloqué en un asiento próximo a una ventana cogí un libro de una mesa y empecé a leer}

数据字段

  • text: 西班牙语句子

数据分割

该数据集未进行分割。

数据集创建

策划理由

西班牙十亿词语料库是为了使用gensim包提供的word2vect算法训练词嵌入而创建的。

源数据

初始数据收集和规范化

该语料库是通过编译以下资源创建的:

  • SenSem的西班牙部分
  • Ancora语料库的西班牙部分
  • Tibidabo树库和IULA西班牙LSP树库
  • 以下OPUS项目语料库的西班牙部分:
    • 由Andras Farkas对齐的书籍
    • JRC-Acquis(欧盟立法文本集合)
    • News Commentary语料库
    • 由Alexandre Rafalovitch和Robert Dale编译的联合国文件
  • Europarl(欧洲议会)的西班牙部分
  • 2015-09-01的西班牙维基百科、维基文库和维基教科书的转储

所有带标注的语料库(如Ancora、SenSem和Tibidabo)都被去标注化,平行语料库(大多来自OPUS项目)经过预处理,只保留西班牙部分。

一旦整个语料库去标注化,所有非字母数字字符都被替换为空格,所有数字被替换为“DIGITO”标记,所有多个空格被替换为一个空格。

单词的大写保持不变。

源语言生产者

数据由Cristian Cardellino编译和处理。

标注

该数据集未标注。

附加信息

数据集策展人

数据由Cristian Cardellino收集和处理。

许可信息

该数据集根据知识共享署名-相同方式共享4.0国际许可协议(CC BY-SA 4.0)进行许可。

引用信息

@misc{cardellinoSBWCE, author = {Cardellino, Cristian}, title = {Spanish {B}illion {W}ords {C}orpus and {E}mbeddings}, url = {https://crscardellino.github.io/SBWCE/}, month = {August}, year = {2019} }

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作