five

pysentimiento/spanish-tweets-small

收藏
Hugging Face2022-12-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pysentimiento/spanish-tweets-small
下载链接
链接失效反馈
官方服务:
资源简介:
spanish-tweets-small数据集是spanish-tweets的较小版本,主要用于预训练嵌入和语言模型。该数据集包含大量的西班牙语推文,但也包含一些葡萄牙语、英语和其他语言的推文。数据集的结构包括推文ID、用户ID和推文文本。数据集的创建过程涉及从Archive.org下载的Spritzer集合,并筛选出语言元数据为西班牙语的推文。数据集的总大小约为83541914709字节,包含597433111个训练样本和6224733个测试样本。
提供机构:
pysentimiento
原始信息汇总

数据集概述

数据集名称

  • 名称: spanish-tweets-small
  • 描述: A smaller version of spanish-tweets,用于预训练嵌入和语言模型。

数据集结构

  • 特征:
    • text: 字符串类型
    • tweet_id: 字符串类型
    • user_id: 字符串类型

数据集大小

  • 下载大小: 51737237106 字节
  • 数据集总大小: 83541914709 字节

数据分割

  • 训练集:
    • 数量: 597433111 条
    • 大小: 82649695458 字节
  • 测试集:
    • 数量: 6224733 条
    • 大小: 892219251 字节

语言

  • 主要语言: 西班牙语
  • 其他语言: 葡萄牙语、英语及其他语言

数据集用途

  • 用途: 用于预训练语言模型或其他表示

数据集创建

  • 数据来源: 从Spritzer收集的数据中筛选出语言元数据为西班牙语的推文
  • 数据量: 约3000万条推文
  • 数据多样性: 包含少量非西班牙语推文(约占总量的7/8%)
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个用于预训练语言模型和词嵌入的西班牙语推文语料库,包含约3100万条推文,主要语言为西班牙语,但也包含少量其他语言。它专为处理社交媒体文本设计,适用于自然语言处理任务的模型训练和评估。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作