LeoCordoba/CC-NEWS-ES
收藏Hugging Face2023-02-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/LeoCordoba/CC-NEWS-ES
下载链接
链接失效反馈官方服务:
资源简介:
CC-NEWS-ES是一个西班牙语的新闻数据集,来源于2019年的CC-NEWS(Common Crawl的新闻索引),通过FastText模型进行语言预测提取西班牙语文章。数据集包含7,473,286篇文本和1,812,009,283个单词,按不同域(如国家或地区)分布。数据集的结构包括每个数据实例的国家域、新闻正文和内部ID。数据集未包含额外的注释,且未提及数据集的社交影响、偏见或其他已知限制。
提供机构:
LeoCordoba
原始信息汇总
数据集概述
数据集名称
CC-NEWS-ES
语言
- 西班牙语(es)
许可
- MIT许可证
多语言性
- 单语种
数据集大小
- 包含7,473,286个文本和1,812,009,283个单词
数据集结构
- 数据实例:每个实例包含国家(country)、文本(text)和内部ID(id)。
- 数据字段:未详细说明。
- 数据分割:未详细说明。
任务和支持
- 任务类别:摘要生成(summarization)、文本生成(text-generation)
- 领导板:未提供
数据集创建
- 来源数据:从Common Crawl的CC-NEWS中提取的西班牙语新闻文章。
- 注释:无额外注释。
使用考虑
- 社会影响:未详细说明。
- 偏见讨论:未提供。
- 其他已知限制:未提供。
附加信息
- 数据集维护者:Leonardo Ignacio Córdoba和María Gaska。
- 许可证信息:未提供详细信息。
- 引用信息:未提供。



