five

jorgeortizfuentes/universal_spanish_chilean_corpus

收藏
Hugging Face2023-07-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jorgeortizfuentes/universal_spanish_chilean_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
--- pretty_name: Universal Spanish Chilean Corpus language: - es license: unknown tags: - raw_corpora - chilean - spanish - multi-domain - multi-genre annotations_creators: - found task_categories: - text-generation - fill-mask dataset_info: features: - name: text dtype: string - name: source dtype: class_label: names: '0': books '1': mc4 '2': twitter '3': news '4': complaints splits: - name: train num_bytes: 72178078787 num_examples: 37213992 download_size: 43716140329 dataset_size: 72178078787 size_categories: - 10M<n<100M --- # Universal Chilean Spanish Corpus Este dataset se compone de 37_213_992 textos correspondientes a español de Chile y a español multidialectal. Los textos en español multidialectal provienen del [spanish books](https://huggingface.co/datasets/jorgeortizfuentes/spanish_books). Los textos en español de Chile vienen de los dominios .cl del [mc4 dataset](https://huggingface.co/datasets/mc4) y de tweets, noticias y reclamos de l [chilean-spanish-corpus](https://huggingface.co/datasets/jorgeortizfuentes/chilean-spanish-corpus) | Name | Count | Source | |------------|----------|-----------------------------------------------------------------------------------------------| | books | 87967 | [spanish books](https://huggingface.co/datasets/jorgeortizfuentes/spanish_books) | | mc4 | 8706681 | from [mc4 (.cl domains)](https://huggingface.co/datasets/mc4) in [chilean-spanish-corpus](https://huggingface.co/datasets/jorgeortizfuentes/chilean-spanish-corpus) | | twitter | 27306583 | [chilean-spanish-corpus](https://huggingface.co/datasets/jorgeortizfuentes/chilean-spanish-corpus) | | news | 1081542 | [chilean-spanish-corpus](https://huggingface.co/datasets/jorgeortizfuentes/chilean-spanish-corpus) | | complaints | 31219 | [chilean-spanish-corpus](https://huggingface.co/datasets/jorgeortizfuentes/chilean-spanish-corpus) | Los textos del dataset han sido obtenidos mediante técnicas de web crawling sin distinguir sus derechos de autor. Por lo tanto, pueden tener derechos de autor restrictivos.
提供机构:
jorgeortizfuentes
原始信息汇总

数据集概述

数据集名称

  • Universal Spanish Chilean Corpus

语言

  • 西班牙语(es)

许可

  • 未知

标签

  • 原始语料库
  • 智利
  • 西班牙语
  • 多领域
  • 多体裁

标注创建者

  • 发现

任务类别

  • 文本生成
  • 填空

数据集信息

特征

  • 文本
    • 类型:字符串
  • 来源
    • 类型:分类标签
      • 类别:
        • 书籍
        • mc4
        • 推特
        • 新闻
        • 投诉

分割

  • 训练集
    • 字节数:72178078787
    • 示例数:37213992

下载大小

  • 43716140329字节

数据集大小

  • 72178078787字节

大小类别

  • 10M<n<100M

数据来源

  • 书籍
    • 数量:87967
  • mc4
    • 数量:8706681
  • 推特
    • 数量:27306583
  • 新闻
    • 数量:1081542
  • 投诉
    • 数量:31219

数据获取方式

  • 网络爬虫技术,未区分版权
  • 可能存在版权限制
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作