jorgeortizfuentes/universal_spanish_chilean_corpus
收藏Hugging Face2023-07-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jorgeortizfuentes/universal_spanish_chilean_corpus
下载链接
链接失效反馈官方服务:
资源简介:
---
pretty_name: Universal Spanish Chilean Corpus
language:
- es
license: unknown
tags:
- raw_corpora
- chilean
- spanish
- multi-domain
- multi-genre
annotations_creators:
- found
task_categories:
- text-generation
- fill-mask
dataset_info:
features:
- name: text
dtype: string
- name: source
dtype:
class_label:
names:
'0': books
'1': mc4
'2': twitter
'3': news
'4': complaints
splits:
- name: train
num_bytes: 72178078787
num_examples: 37213992
download_size: 43716140329
dataset_size: 72178078787
size_categories:
- 10M<n<100M
---
# Universal Chilean Spanish Corpus
Este dataset se compone de 37_213_992 textos correspondientes a español de Chile y a español multidialectal.
Los textos en español multidialectal provienen del [spanish books](https://huggingface.co/datasets/jorgeortizfuentes/spanish_books).
Los textos en español de Chile vienen de los dominios .cl del [mc4 dataset](https://huggingface.co/datasets/mc4) y de tweets, noticias y reclamos de l [chilean-spanish-corpus](https://huggingface.co/datasets/jorgeortizfuentes/chilean-spanish-corpus)
| Name | Count | Source |
|------------|----------|-----------------------------------------------------------------------------------------------|
| books | 87967 | [spanish books](https://huggingface.co/datasets/jorgeortizfuentes/spanish_books) |
| mc4 | 8706681 | from [mc4 (.cl domains)](https://huggingface.co/datasets/mc4) in [chilean-spanish-corpus](https://huggingface.co/datasets/jorgeortizfuentes/chilean-spanish-corpus) |
| twitter | 27306583 | [chilean-spanish-corpus](https://huggingface.co/datasets/jorgeortizfuentes/chilean-spanish-corpus) |
| news | 1081542 | [chilean-spanish-corpus](https://huggingface.co/datasets/jorgeortizfuentes/chilean-spanish-corpus) |
| complaints | 31219 | [chilean-spanish-corpus](https://huggingface.co/datasets/jorgeortizfuentes/chilean-spanish-corpus) |
Los textos del dataset han sido obtenidos mediante técnicas de web crawling sin distinguir sus derechos de autor. Por lo tanto, pueden tener derechos de autor restrictivos.
提供机构:
jorgeortizfuentes
原始信息汇总
数据集概述
数据集名称
- Universal Spanish Chilean Corpus
语言
- 西班牙语(es)
许可
- 未知
标签
- 原始语料库
- 智利
- 西班牙语
- 多领域
- 多体裁
标注创建者
- 发现
任务类别
- 文本生成
- 填空
数据集信息
特征
- 文本
- 类型:字符串
- 来源
- 类型:分类标签
- 类别:
- 书籍
- mc4
- 推特
- 新闻
- 投诉
- 类别:
- 类型:分类标签
分割
- 训练集
- 字节数:72178078787
- 示例数:37213992
下载大小
- 43716140329字节
数据集大小
- 72178078787字节
大小类别
- 10M<n<100M
数据来源
- 书籍
- 数量:87967
- mc4
- 数量:8706681
- 推特
- 数量:27306583
- 新闻
- 数量:1081542
- 投诉
- 数量:31219
数据获取方式
- 网络爬虫技术,未区分版权
- 可能存在版权限制



