fitsum-getachew/FLAN-V2-cot_fs_opt_train_deduplicated

Name: fitsum-getachew/FLAN-V2-cot_fs_opt_train_deduplicated
Creator: fitsum-getachew
Published: 2024-06-13 05:38:17
License: 暂无描述

Hugging Face2024-06-13 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/fitsum-getachew/FLAN-V2-cot_fs_opt_train_deduplicated

下载链接

链接失效反馈

官方服务：

资源简介：

flan_v2_cot_fs_opt_train_cleaned数据集是FLAN V2数据集的一个预处理子集，专门用于微调大型语言模型如LLaMA2。预处理步骤包括过滤掉短响应（少于100个标记）和使用余弦相似度进行去重。数据集以JSON Lines格式存储，每个数据点包含输入提示、响应和任务类型字段。

提供机构：

fitsum-getachew

原始信息汇总

数据集卡片：flan_v2_cot_fs_opt_train_cleaned

数据集描述

创建者: Fitsum Getachew Tola
语言: 英语
来源: FLAN V2 数据集的 "cot_fs_opt_train" 任务
预处理: 过滤短响应（<100 个 token）和使用余弦相似度去重

数据集结构

格式: JSON Lines (JSONL)
字段:
- inputs: 输入提示或问题（文本）
- targets: 对应的响应或答案（文本）
- task: 任务类型，本子集为 "cot"（Chain of Thought）

数据集创建

目的: 为大型语言模型在推理任务中进行微调提供高质量训练数据
数据处理:
- 过滤响应少于 100 个 token 的条目
- 使用 TF-IDF 和余弦相似度去重（相似度 > 0.95）

数据集分割

训练集:
- 样本数: 1447
- 字节数: 5441056.553482587
测试集:
- 样本数: 161
- 字节数: 605397.4465174129

数据集大小

下载大小: 1903411 字节
数据集大小: 6046454.0 字节

使用场景

直接使用: 用于需要推理和遵循 Chain of Thought 过程的任务
不适用场景:
- 不需要推理或 Chain of Thought 的任务
- 训练包含敏感或私人信息的模型

偏差、风险和限制

偏差: 可能继承自 FLAN V2 数据集
限制: 数据集大小有限，可能排除简洁答案

建议

用户应了解潜在的偏差和限制，考虑结合其他数据源以获得更全面的训练数据集

5,000+

优质数据集

54 个

任务类型

进入经典数据集