five

sade-adrien/context_extension-mistral-natural_distribution-16k

收藏
Hugging Face2023-12-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sade-adrien/context_extension-mistral-natural_distribution-16k
下载链接
链接失效反馈
官方服务:
资源简介:
数据集名为context_extension-mistral-natural_distribution-16k,包含32k个样本。数据集的特征包括raw_content(字符串类型)、input_ids(int32序列)、attention_mask(int8序列)和labels(int64序列)。数据集的训练集部分包含32000个样本,大小为6760321689字节。数据集的下载大小为2955669157字节,总大小为6760321689字节。数据集的token大小在1到16400之间,具有自然大小分布(许多小的,少数长的,类似1/x的分布)。数据集构建时使用了小样本(无过滤)的1/3和长样本(+16k)的2/3,并将所有样本调整为1到16400之间。数据集来源于redpajama-v2。

数据集名为context_extension-mistral-natural_distribution-16k,包含32k个样本。数据集的特征包括raw_content(字符串类型)、input_ids(int32序列)、attention_mask(int8序列)和labels(int64序列)。数据集的训练集部分包含32000个样本,大小为6760321689字节。数据集的下载大小为2955669157字节,总大小为6760321689字节。数据集的token大小在1到16400之间,具有自然大小分布(许多小的,少数长的,类似1/x的分布)。数据集构建时使用了小样本(无过滤)的1/3和长样本(+16k)的2/3,并将所有样本调整为1到16400之间。数据集来源于redpajama-v2。
提供机构:
sade-adrien
原始信息汇总

数据集概述

数据集信息

  • 特征:
    • raw_content: 数据类型为字符串。
    • input_ids: 数据类型为整数序列,类型为int32。
    • attention_mask: 数据类型为整数序列,类型为int8。
    • labels: 数据类型为整数序列,类型为int64。
  • 数据分割:
    • train: 包含32000个样本,大小为6760321689字节。
  • 下载大小: 2955669157字节。
  • 数据集大小: 6760321689字节。

数据集描述

  • 样本数量: 32k个样本。
  • 令牌大小: mistral令牌大小范围为1 < x < 16400。
  • 大小分布: 自然大小分布(大量小样本,少量长样本,类似1/x分布)。
  • 构建方式: 小样本(无过滤)占1/3,长样本(+16k)占2/3,所有样本调整大小至1 < x < 16400。
  • 来源: 来自redpajama-v2。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作