five

nbtpj/6k-sample

收藏
Hugging Face2023-03-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nbtpj/6k-sample
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: bucketized_user_age dtype: float32 - name: movie_genres sequence: int64 - name: movie_id dtype: binary - name: movie_title dtype: binary - name: timestamp dtype: int64 - name: user_gender dtype: bool - name: user_id dtype: binary - name: user_occupation_label dtype: int64 - name: user_occupation_text dtype: binary - name: user_rating dtype: float32 - name: user_zip_code dtype: binary - name: bio prompt dtype: string - name: history prompt dtype: string - name: history overview prompt dtype: string - name: job-group prompt dtype: string - name: age-group prompt dtype: string - name: gender-group prompt dtype: string - name: region-group prompt dtype: string - name: cross-movie prompt dtype: string - name: cross-cate prompt dtype: string splits: - name: train num_bytes: 39211129 num_examples: 6000 download_size: 5318113 dataset_size: 39211129 --- # Dataset Card for "6k-sample" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

--- dataset_info: 数据集信息 features: - 特征:bucketized_user_age(分箱用户年龄),数据类型为float32(单精度32位浮点数) - 特征:movie_genres(电影流派),为序列类型的int64(64位整数) - 特征:movie_id(电影ID),数据类型为binary(二进制类型) - 特征:movie_title(电影标题),数据类型为binary(二进制类型) - 特征:timestamp(时间戳),数据类型为int64(64位整数) - 特征:user_gender(用户性别),数据类型为bool(布尔类型) - 特征:user_id(用户ID),数据类型为binary(二进制类型) - 特征:user_occupation_label(用户职业标签),数据类型为int64(64位整数) - 特征:user_occupation_text(用户职业文本),数据类型为binary(二进制类型) - 特征:user_rating(用户评分),数据类型为float32(单精度32位浮点数) - 特征:user_zip_code(用户邮政编码),数据类型为binary(二进制类型) - 特征:bio prompt(个人简介提示词),数据类型为string(字符串类型) - 特征:history prompt(历史交互提示词),数据类型为string(字符串类型) - 特征:history overview prompt(历史交互概述提示词),数据类型为string(字符串类型) - 特征:job-group prompt(职业组提示词),数据类型为string(字符串类型) - 特征:age-group prompt(年龄组提示词),数据类型为string(字符串类型) - 特征:gender-group prompt(性别组提示词),数据类型为string(字符串类型) - 特征:region-group prompt(地区组提示词),数据类型为string(字符串类型) - 特征:cross-movie prompt(跨电影提示词),数据类型为string(字符串类型) - 特征:cross-cate prompt(跨类别提示词),数据类型为string(字符串类型) splits: - 划分集:train(训练集),占用字节数为39211129,样本总数为6000 download_size: 下载大小为5318113 dataset_size: 数据集总大小为39211129 --- # 「6k-sample」数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
nbtpj
原始信息汇总

数据集概述

数据集特征

  • bucketized_user_age: 数据类型为 float32
  • movie_genres: 数据类型为 int64,序列类型。
  • movie_id: 数据类型为 binary
  • movie_title: 数据类型为 binary
  • timestamp: 数据类型为 int64
  • user_gender: 数据类型为 bool
  • user_id: 数据类型为 binary
  • user_occupation_label: 数据类型为 int64
  • user_occupation_text: 数据类型为 binary
  • user_rating: 数据类型为 float32
  • user_zip_code: 数据类型为 binary
  • bio prompt: 数据类型为 string
  • history prompt: 数据类型为 string
  • history overview prompt: 数据类型为 string
  • job-group prompt: 数据类型为 string
  • age-group prompt: 数据类型为 string
  • gender-group prompt: 数据类型为 string
  • region-group prompt: 数据类型为 string
  • cross-movie prompt: 数据类型为 string
  • cross-cate prompt: 数据类型为 string

数据集分割

  • train: 数据大小为 39211129 字节,包含 6000 个样本。

数据集大小

  • 下载大小: 5318113 字节。
  • 数据集总大小: 39211129 字节。
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作