five

fitsum-getachew/FLAN-V2-cot_fs_opt_train_deduplicated

收藏
Hugging Face2024-06-13 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/fitsum-getachew/FLAN-V2-cot_fs_opt_train_deduplicated
下载链接
链接失效反馈
官方服务:
资源简介:
flan_v2_cot_fs_opt_train_cleaned数据集是FLAN V2数据集的一个预处理子集,专门用于微调大型语言模型如LLaMA2。预处理步骤包括过滤掉短响应(少于100个标记)和使用余弦相似度进行去重。数据集以JSON Lines格式存储,每个数据点包含输入提示、响应和任务类型字段。

flan_v2_cot_fs_opt_train_cleaned数据集是FLAN V2数据集的一个预处理子集,专门用于微调大型语言模型如LLaMA2。预处理步骤包括过滤掉短响应(少于100个标记)和使用余弦相似度进行去重。数据集以JSON Lines格式存储,每个数据点包含输入提示、响应和任务类型字段。
提供机构:
fitsum-getachew
原始信息汇总

数据集卡片:flan_v2_cot_fs_opt_train_cleaned

数据集描述

  • 创建者: Fitsum Getachew Tola
  • 语言: 英语
  • 来源: FLAN V2 数据集的 "cot_fs_opt_train" 任务
  • 预处理: 过滤短响应(<100 个 token)和使用余弦相似度去重

数据集结构

  • 格式: JSON Lines (JSONL)
  • 字段:
    • inputs: 输入提示或问题(文本)
    • targets: 对应的响应或答案(文本)
    • task: 任务类型,本子集为 "cot"(Chain of Thought)

数据集创建

  • 目的: 为大型语言模型在推理任务中进行微调提供高质量训练数据
  • 数据处理:
    • 过滤响应少于 100 个 token 的条目
    • 使用 TF-IDF 和余弦相似度去重(相似度 > 0.95)

数据集分割

  • 训练集:
    • 样本数: 1447
    • 字节数: 5441056.553482587
  • 测试集:
    • 样本数: 161
    • 字节数: 605397.4465174129

数据集大小

  • 下载大小: 1903411 字节
  • 数据集大小: 6046454.0 字节

使用场景

  • 直接使用: 用于需要推理和遵循 Chain of Thought 过程的任务
  • 不适用场景:
    • 不需要推理或 Chain of Thought 的任务
    • 训练包含敏感或私人信息的模型

偏差、风险和限制

  • 偏差: 可能继承自 FLAN V2 数据集
  • 限制: 数据集大小有限,可能排除简洁答案

建议

  • 用户应了解潜在的偏差和限制,考虑结合其他数据源以获得更全面的训练数据集
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作