pysentimiento/spanish-tweets-small
收藏Hugging Face2022-12-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pysentimiento/spanish-tweets-small
下载链接
链接失效反馈官方服务:
资源简介:
spanish-tweets-small数据集是spanish-tweets的较小版本,主要用于预训练嵌入和语言模型。该数据集包含大量的西班牙语推文,但也包含一些葡萄牙语、英语和其他语言的推文。数据集的结构包括推文ID、用户ID和推文文本。数据集的创建过程涉及从Archive.org下载的Spritzer集合,并筛选出语言元数据为西班牙语的推文。数据集的总大小约为83541914709字节,包含597433111个训练样本和6224733个测试样本。
提供机构:
pysentimiento
原始信息汇总
数据集概述
数据集名称
- 名称: spanish-tweets-small
- 描述: A smaller version of spanish-tweets,用于预训练嵌入和语言模型。
数据集结构
- 特征:
- text: 字符串类型
- tweet_id: 字符串类型
- user_id: 字符串类型
数据集大小
- 下载大小: 51737237106 字节
- 数据集总大小: 83541914709 字节
数据分割
- 训练集:
- 数量: 597433111 条
- 大小: 82649695458 字节
- 测试集:
- 数量: 6224733 条
- 大小: 892219251 字节
语言
- 主要语言: 西班牙语
- 其他语言: 葡萄牙语、英语及其他语言
数据集用途
- 用途: 用于预训练语言模型或其他表示
数据集创建
- 数据来源: 从Spritzer收集的数据中筛选出语言元数据为西班牙语的推文
- 数据量: 约3000万条推文
- 数据多样性: 包含少量非西班牙语推文(约占总量的7/8%)
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个用于预训练语言模型和词嵌入的西班牙语推文语料库,包含约3100万条推文,主要语言为西班牙语,但也包含少量其他语言。它专为处理社交媒体文本设计,适用于自然语言处理任务的模型训练和评估。
以上内容由遇见数据集搜集并总结生成



