mammut/mammut-corpus-venezuela-test-set
收藏mammut-corpus-venezuela 数据集概述
1. 数据集简介
mammut-corpus-venezuela 是一个用于西班牙语语言建模的数据集。该数据集包含大量委内瑞拉和拉丁美洲西班牙语文本,这些文本于2021年手动筛选和收集。数据来源包括从不同门户网站进行网络爬取、下载Telegram群聊历史记录以及在线可用的委内瑞拉和拉丁美洲西班牙语文本。文本来源包括委内瑞拉西班牙语使用者、字幕制作者、记者、政治家、医生、作家和在线卖家。数据中可能存在社会偏见,部分文本可能是虚假的或包含误导性或冒犯性语言。
2. 数据集结构
2.1 数据实例
数据集中的一个示例: json { "AUTHOR": "author in title", "TITLE": "Luis Alberto Buttó: Hecho en socialismo", "SENTENCE": "Históricamente, siempre fue así.", "DATE": "2021-07-04 07:18:46.918253", "SOURCE": "la patilla", "TOKENS": "4", "TYPE": "opinion/news" }
2.2 数据字段
数据集包含以下字段:
- AUTHOR: 文本的作者,对话作者是匿名的。
- DATE: 文本进入语料库的日期。
- SENTENCE: 文本,对于非对话来源自动分词。
- SOURCE: 文本的来源。
- TITLE: 文本的标题。
- TOKENS: 文本的词数(不包括标点符号)。
- TYPE: 文本的语言注册类型。
2.3 数据分割
数据集包含两个分割:训练集和测试集。统计信息如下:
- 测试集:157,011条实例。
3. 数据集创建
3.1 数据收集和规范化
数据包括观点文章和文本消息,通过网络爬取、下载Telegram群聊历史记录以及在线可用的委内瑞拉和拉丁美洲西班牙语文本收集。文本来源包括El Estímulo、cinco8、csm-1990、"El atajo más largo"、El Pitazo、La Patilla、委内瑞拉电影字幕、Preseea Mérida、Prodavinci、Runrunes和Telegram群聊。
3.2 数据来源
文本来自委内瑞拉西班牙语使用者、字幕制作者、记者、政治家、医生、作家和在线卖家。
4. 使用注意事项
4.1 数据集的社会影响
该数据集旨在帮助委内瑞拉西班牙语语言建模模型(预训练或微调)的发展。
4.2 偏见讨论
大部分内容来自政治、经济和社会学观点文章,可能存在社会偏见。



