nbtpj/6k-sample
收藏Hugging Face2023-03-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nbtpj/6k-sample
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: bucketized_user_age
dtype: float32
- name: movie_genres
sequence: int64
- name: movie_id
dtype: binary
- name: movie_title
dtype: binary
- name: timestamp
dtype: int64
- name: user_gender
dtype: bool
- name: user_id
dtype: binary
- name: user_occupation_label
dtype: int64
- name: user_occupation_text
dtype: binary
- name: user_rating
dtype: float32
- name: user_zip_code
dtype: binary
- name: bio prompt
dtype: string
- name: history prompt
dtype: string
- name: history overview prompt
dtype: string
- name: job-group prompt
dtype: string
- name: age-group prompt
dtype: string
- name: gender-group prompt
dtype: string
- name: region-group prompt
dtype: string
- name: cross-movie prompt
dtype: string
- name: cross-cate prompt
dtype: string
splits:
- name: train
num_bytes: 39211129
num_examples: 6000
download_size: 5318113
dataset_size: 39211129
---
# Dataset Card for "6k-sample"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
---
dataset_info: 数据集信息
features:
- 特征:bucketized_user_age(分箱用户年龄),数据类型为float32(单精度32位浮点数)
- 特征:movie_genres(电影流派),为序列类型的int64(64位整数)
- 特征:movie_id(电影ID),数据类型为binary(二进制类型)
- 特征:movie_title(电影标题),数据类型为binary(二进制类型)
- 特征:timestamp(时间戳),数据类型为int64(64位整数)
- 特征:user_gender(用户性别),数据类型为bool(布尔类型)
- 特征:user_id(用户ID),数据类型为binary(二进制类型)
- 特征:user_occupation_label(用户职业标签),数据类型为int64(64位整数)
- 特征:user_occupation_text(用户职业文本),数据类型为binary(二进制类型)
- 特征:user_rating(用户评分),数据类型为float32(单精度32位浮点数)
- 特征:user_zip_code(用户邮政编码),数据类型为binary(二进制类型)
- 特征:bio prompt(个人简介提示词),数据类型为string(字符串类型)
- 特征:history prompt(历史交互提示词),数据类型为string(字符串类型)
- 特征:history overview prompt(历史交互概述提示词),数据类型为string(字符串类型)
- 特征:job-group prompt(职业组提示词),数据类型为string(字符串类型)
- 特征:age-group prompt(年龄组提示词),数据类型为string(字符串类型)
- 特征:gender-group prompt(性别组提示词),数据类型为string(字符串类型)
- 特征:region-group prompt(地区组提示词),数据类型为string(字符串类型)
- 特征:cross-movie prompt(跨电影提示词),数据类型为string(字符串类型)
- 特征:cross-cate prompt(跨类别提示词),数据类型为string(字符串类型)
splits:
- 划分集:train(训练集),占用字节数为39211129,样本总数为6000
download_size: 下载大小为5318113
dataset_size: 数据集总大小为39211129
---
# 「6k-sample」数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
nbtpj
原始信息汇总
数据集概述
数据集特征
- bucketized_user_age: 数据类型为
float32。 - movie_genres: 数据类型为
int64,序列类型。 - movie_id: 数据类型为
binary。 - movie_title: 数据类型为
binary。 - timestamp: 数据类型为
int64。 - user_gender: 数据类型为
bool。 - user_id: 数据类型为
binary。 - user_occupation_label: 数据类型为
int64。 - user_occupation_text: 数据类型为
binary。 - user_rating: 数据类型为
float32。 - user_zip_code: 数据类型为
binary。 - bio prompt: 数据类型为
string。 - history prompt: 数据类型为
string。 - history overview prompt: 数据类型为
string。 - job-group prompt: 数据类型为
string。 - age-group prompt: 数据类型为
string。 - gender-group prompt: 数据类型为
string。 - region-group prompt: 数据类型为
string。 - cross-movie prompt: 数据类型为
string。 - cross-cate prompt: 数据类型为
string。
数据集分割
- train: 数据大小为
39211129字节,包含6000个样本。
数据集大小
- 下载大小:
5318113字节。 - 数据集总大小:
39211129字节。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



