mammut/mammut-corpus-venezuela-test-set

Name: mammut/mammut-corpus-venezuela-test-set
Creator: mammut
Published: 2022-10-22 08:58:48
License: 暂无描述

Hugging Face2022-10-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mammut/mammut-corpus-venezuela-test-set

下载链接

链接失效反馈

官方服务：

资源简介：

mammut-corpus-venezuela数据集是一个用于西班牙语语言建模的数据集，包含大量委内瑞拉和拉丁美洲西班牙语文本。这些文本通过网页抓取、Telegram群聊历史下载和在线语料库选择等方式收集，来源包括委内瑞拉西班牙语使用者、字幕制作者、记者、政治家、医生、作家和在线卖家。数据集中的每条记录包含作者（对话作者匿名）、文本进入语料库的日期、文本（非对话来源的文本已自动分句）、文本来源、文本标题、文本的标记数量（不包括标点符号）和文本的语言注册。数据集分为训练集和测试集，测试集包含157,011条实例。数据集可能存在社会偏见，部分文本可能包含虚假或误导性语言。

提供机构：

mammut

原始信息汇总

mammut-corpus-venezuela 数据集概述

1. 数据集简介

mammut-corpus-venezuela 是一个用于西班牙语语言建模的数据集。该数据集包含大量委内瑞拉和拉丁美洲西班牙语文本，这些文本于2021年手动筛选和收集。数据来源包括从不同门户网站进行网络爬取、下载Telegram群聊历史记录以及在线可用的委内瑞拉和拉丁美洲西班牙语文本。文本来源包括委内瑞拉西班牙语使用者、字幕制作者、记者、政治家、医生、作家和在线卖家。数据中可能存在社会偏见，部分文本可能是虚假的或包含误导性或冒犯性语言。

2. 数据集结构

2.1 数据实例

数据集中的一个示例： json { "AUTHOR": "author in title", "TITLE": "Luis Alberto Buttó: Hecho en socialismo", "SENTENCE": "Históricamente, siempre fue así.", "DATE": "2021-07-04 07:18:46.918253", "SOURCE": "la patilla", "TOKENS": "4", "TYPE": "opinion/news" }

2.2 数据字段

数据集包含以下字段：

AUTHOR: 文本的作者，对话作者是匿名的。
DATE: 文本进入语料库的日期。
SENTENCE: 文本，对于非对话来源自动分词。
SOURCE: 文本的来源。
TITLE: 文本的标题。
TOKENS: 文本的词数（不包括标点符号）。
TYPE: 文本的语言注册类型。

2.3 数据分割

数据集包含两个分割：训练集和测试集。统计信息如下：

测试集：157,011条实例。

3. 数据集创建

3.1 数据收集和规范化

数据包括观点文章和文本消息，通过网络爬取、下载Telegram群聊历史记录以及在线可用的委内瑞拉和拉丁美洲西班牙语文本收集。文本来源包括El Estímulo、cinco8、csm-1990、"El atajo más largo"、El Pitazo、La Patilla、委内瑞拉电影字幕、Preseea Mérida、Prodavinci、Runrunes和Telegram群聊。

3.2 数据来源

文本来自委内瑞拉西班牙语使用者、字幕制作者、记者、政治家、医生、作家和在线卖家。

4. 使用注意事项

4.1 数据集的社会影响

该数据集旨在帮助委内瑞拉西班牙语语言建模模型（预训练或微调）的发展。

4.2 偏见讨论

大部分内容来自政治、经济和社会学观点文章，可能存在社会偏见。

5,000+

优质数据集

54 个

任务类型

进入经典数据集