brianadit24/senator_tweets_embedding_e5
收藏Hugging Face2024-05-07 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/brianadit24/senator_tweets_embedding_e5
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征,如日期、ID、用户名、文本、党派、标签和嵌入向量。数据集分为训练集和测试集,训练集包含79754个样本,测试集包含19939个样本。数据集的下载大小为487746061字节,总大小为437364498字节。
dataset_info:
features:
- name: 日期(date)
dtype: 字符串(string)
- name: id
dtype: 64位整数(int64)
- name: 用户名(username)
dtype: 字符串(string)
- name: 文本(text)
dtype: 字符串(string)
- name: 党派(party)
dtype: 字符串(string)
- name: 标签(labels)
dtype:
class_label(分类标签):
names:
'0': '0'
'1': '1'
- name: 嵌入向量(embeddings)
sequence: float32(32位浮点数)
splits:
- name: 训练集(train)
num_bytes: 349892922
num_examples: 79754
- name: 测试集(test)
num_bytes: 87471576
num_examples: 19939
download_size: 487746061
dataset_size: 437364498
configs:
- config_name: 默认配置(default)
data_files:
- split: 训练集(train)
path: data/train-*
- split: 测试集(test)
path: data/test-*
提供机构:
brianadit24
原始信息汇总
数据集概述
数据集特征
- date: 数据类型为字符串(string)
- id: 数据类型为整数(int64)
- username: 数据类型为字符串(string)
- text: 数据类型为字符串(string)
- party: 数据类型为字符串(string)
- labels: 数据类型为分类标签,具体标签为0和1
- embeddings: 数据类型为浮点数序列(float32)
数据集分割
- 训练集(train): 包含79754个样本,总大小为349892922字节
- 测试集(test): 包含19939个样本,总大小为87471576字节
数据集大小
- 下载大小: 487746061字节
- 数据集总大小: 437364498字节
数据文件配置
- 默认配置(default):
- 训练集路径:
data/train-* - 测试集路径:
data/test-*
- 训练集路径:



