five

seonglae/faithful-llama3.2-1b

收藏
Hugging Face2025-04-07 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/seonglae/faithful-llama3.2-1b
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含文本数据的训练集,其中每个样本包括一个唯一标识、随机种子、温度参数、截断概率、文本内容和token数量等信息。数据集共包含276000个文本序列,总token数为110070117,使用的唯一token数量为122593。数据集的平均token数量为398.80,标准差为370.88,序列长度从1到1122不等。此外,数据集的词汇表大小为128000。

This is a training dataset containing text data, where each sample includes an unique identifier, random seed, temperature parameter, truncation probability, text content, and token count. The dataset consists of 276,000 text sequences with a total of 110,070,117 tokens and 122,593 unique tokens used. The average token count is 398.80 with a standard deviation of 370.88, and the sequence length varies from 1 to 1122. Moreover, the tokenizer vocabulary size is 128,000.
提供机构:
seonglae
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作