five

raymondzmc/tweet_topic_Llama-3.2-1B-Instruct_vocab_2000_last

收藏
Hugging Face2025-12-16 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/raymondzmc/tweet_topic_Llama-3.2-1B-Instruct_vocab_2000_last
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: id dtype: int64 - name: context dtype: string - name: next_word dtype: string - name: next_word_logits sequence: float32 - name: input_embeddings sequence: sequence: float32 - name: bow dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 3248109479 num_examples: 21996 download_size: 1309576587 dataset_size: 3248109479 configs: - config_name: default data_files: - split: train path: data/train-* ---

数据集信息: 特征: - 特征名称:id,数据类型:64位整数(int64) - 特征名称:context(上下文),数据类型:字符串 - 特征名称:next_word(下一词),数据类型:字符串 - 特征名称:next_word_logits(下一词对数几率),数据类型:32位浮点数(float32)序列 - 特征名称:input_embeddings(输入嵌入),数据类型:嵌套32位浮点数(float32)序列 - 特征名称:bow(词袋,Bag-of-Words, BoW),数据类型:字符串 - 特征名称:label,数据类型:64位整数(int64) 数据集划分: - 划分名称:train(训练集),数据存储字节数:3248109479,样本数量:21996 下载大小:1309576587 字节 数据集总大小:3248109479 字节 配置项: - 配置名称:default(默认配置),数据文件: - 对应数据集划分:train(训练集),存储路径:data/train-*
提供机构:
raymondzmc
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作