fitsum-getachew/FLAN-V2-cot_fs_opt_train_deduplicated
收藏Hugging Face2024-06-13 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/fitsum-getachew/FLAN-V2-cot_fs_opt_train_deduplicated
下载链接
链接失效反馈官方服务:
资源简介:
flan_v2_cot_fs_opt_train_cleaned数据集是FLAN V2数据集的一个预处理子集,专门用于微调大型语言模型如LLaMA2。预处理步骤包括过滤掉短响应(少于100个标记)和使用余弦相似度进行去重。数据集以JSON Lines格式存储,每个数据点包含输入提示、响应和任务类型字段。
flan_v2_cot_fs_opt_train_cleaned数据集是FLAN V2数据集的一个预处理子集,专门用于微调大型语言模型如LLaMA2。预处理步骤包括过滤掉短响应(少于100个标记)和使用余弦相似度进行去重。数据集以JSON Lines格式存储,每个数据点包含输入提示、响应和任务类型字段。
提供机构:
fitsum-getachew
原始信息汇总
数据集卡片:flan_v2_cot_fs_opt_train_cleaned
数据集描述
- 创建者: Fitsum Getachew Tola
- 语言: 英语
- 来源: FLAN V2 数据集的 "cot_fs_opt_train" 任务
- 预处理: 过滤短响应(<100 个 token)和使用余弦相似度去重
数据集结构
- 格式: JSON Lines (JSONL)
- 字段:
inputs: 输入提示或问题(文本)targets: 对应的响应或答案(文本)task: 任务类型,本子集为 "cot"(Chain of Thought)
数据集创建
- 目的: 为大型语言模型在推理任务中进行微调提供高质量训练数据
- 数据处理:
- 过滤响应少于 100 个 token 的条目
- 使用 TF-IDF 和余弦相似度去重(相似度 > 0.95)
数据集分割
- 训练集:
- 样本数: 1447
- 字节数: 5441056.553482587
- 测试集:
- 样本数: 161
- 字节数: 605397.4465174129
数据集大小
- 下载大小: 1903411 字节
- 数据集大小: 6046454.0 字节
使用场景
- 直接使用: 用于需要推理和遵循 Chain of Thought 过程的任务
- 不适用场景:
- 不需要推理或 Chain of Thought 的任务
- 训练包含敏感或私人信息的模型
偏差、风险和限制
- 偏差: 可能继承自 FLAN V2 数据集
- 限制: 数据集大小有限,可能排除简洁答案
建议
- 用户应了解潜在的偏差和限制,考虑结合其他数据源以获得更全面的训练数据集



