five

casperhansen/longalpaca_1k_test

收藏
Hugging Face2023-10-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/casperhansen/longalpaca_1k_test
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从Yukang/LongAlpaca-12k数据集中预处理得到的,包含1000个样本,每个样本的token长度在16k到32k之间。
提供机构:
casperhansen
原始信息汇总

数据集概述

数据来源

  • 数据集预处理自 Yukang/LongAlpaca-12k

数据规模

  • 包含1000个样本。

数据特征

  • 每个样本的令牌长度范围:最小16k令牌,最大32k令牌。

数据处理步骤

  1. 加载数据集和分词器。
  2. 定义过滤函数,筛选出令牌长度在16k到32k之间的样本。
  3. 将筛选后的数据转换为Pandas DataFrame。
  4. 从DataFrame中随机抽取1000个样本。
  5. 将抽取的样本转换为PyArrow Table并保存为Parquet文件。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作