ummagumm-a/twitter_posts
收藏Hugging Face2023-05-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ummagumm-a/twitter_posts
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: retweetCount
dtype: int64
- name: num_mentioned_users
dtype: int64
- name: lang
dtype: string
- name: num_outlinks
dtype: int64
- name: likeCount
dtype: int64
- name: num_hashtags
dtype: int64
- name: content
dtype: string
- name: quoteCount
dtype: int64
- name: date
dtype: string
- name: user
dtype: string
- name: replyCount
dtype: int64
splits:
- name: train
num_bytes: 42654407
num_examples: 153340
download_size: 23097728
dataset_size: 42654407
---
# Dataset Card for "twitter_posts"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
ummagumm-a
原始信息汇总
数据集概述
数据集名称
twitter_posts
数据特征
- retweetCount:转发次数,数据类型为 int64。
- num_mentioned_users:提及的用户数,数据类型为 int64。
- lang:语言,数据类型为 string。
- num_outlinks:外部链接数,数据类型为 int64。
- likeCount:点赞次数,数据类型为 int64。
- num_hashtags:标签数,数据类型为 int64。
- content:内容,数据类型为 string。
- quoteCount:引用次数,数据类型为 int64。
- date:日期,数据类型为 string。
- user:用户,数据类型为 string。
- replyCount:回复次数,数据类型为 int64。
数据分割
- train:训练集,包含 153340 个样本,总大小为 42654407 字节。
数据集大小
- 下载大小:23097728 字节
- 数据集总大小:42654407 字节
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个包含约15.3万条Twitter帖子的集合,以Parquet格式存储,总大小为23.1 MB。数据涵盖了推文的互动统计(如转发数、点赞数)、语言、文本内容、发布时间和用户信息,内容涉及新闻、体育、娱乐等多个主题,且包含多种语言,适用于文本分析和社交媒体研究。
以上内容由遇见数据集搜集并总结生成



