pysentimiento/spanish-tweets-small

Name: pysentimiento/spanish-tweets-small
Creator: pysentimiento
Published: 2022-12-01 13:50:26
License: 暂无描述

Hugging Face2022-12-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/pysentimiento/spanish-tweets-small

下载链接

链接失效反馈

官方服务：

资源简介：

spanish-tweets-small数据集是spanish-tweets的较小版本，主要用于预训练嵌入和语言模型。该数据集包含大量的西班牙语推文，但也包含一些葡萄牙语、英语和其他语言的推文。数据集的结构包括推文ID、用户ID和推文文本。数据集的创建过程涉及从Archive.org下载的Spritzer集合，并筛选出语言元数据为西班牙语的推文。数据集的总大小约为83541914709字节，包含597433111个训练样本和6224733个测试样本。

提供机构：

pysentimiento

原始信息汇总

数据集概述

数据集名称

名称: spanish-tweets-small
描述: A smaller version of spanish-tweets,用于预训练嵌入和语言模型。

数据集结构

特征:
- text: 字符串类型
- tweet_id: 字符串类型
- user_id: 字符串类型

数据集大小

下载大小: 51737237106 字节
数据集总大小: 83541914709 字节

数据分割

训练集:
- 数量: 597433111 条
- 大小: 82649695458 字节
测试集:
- 数量: 6224733 条
- 大小: 892219251 字节

语言

主要语言: 西班牙语
其他语言: 葡萄牙语、英语及其他语言

数据集用途

用途: 用于预训练语言模型或其他表示

数据集创建

数据来源: 从Spritzer收集的数据中筛选出语言元数据为西班牙语的推文
数据量: 约3000万条推文
数据多样性: 包含少量非西班牙语推文（约占总量的7/8%）

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是一个用于预训练语言模型和词嵌入的西班牙语推文语料库，包含约3100万条推文，主要语言为西班牙语，但也包含少量其他语言。它专为处理社交媒体文本设计，适用于自然语言处理任务的模型训练和评估。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集