five

ayushrupapara/flanv2_cot_dedepulicated

收藏
Hugging Face2024-06-15 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/ayushrupapara/flanv2_cot_dedepulicated
下载链接
链接失效反馈
官方服务:
资源简介:
FLAN v2 Cot Deduplicated Dataset是一个用于问答、文本生成和句子相似性任务的英文数据集。数据集经过预处理,移除了targets中少于100个token的指令,并使用余弦相似度阈值0.95进行了去重处理。原始数据集由SirNeural/flan_v2提供,使用了Hugging Face的bert-base-uncased分词器。

The FLAN v2 Cot Deduplicated Dataset is an English dataset designed for tasks such as question-answering, text generation, and sentence similarity. The dataset has been preprocessed to remove instructions with fewer than 100 tokens in targets and deduplicated using a cosine similarity threshold of 0.95. The original dataset is provided by SirNeural/flan_v2, and the bert-base-uncased tokenizer from Hugging Face was used.
提供机构:
ayushrupapara
原始信息汇总

FLAN v2 Cot Deduplicated Dataset

数据集概述

  • 许可证: Apache-2.0
  • 任务类别:
    • 问答
    • 文本生成
    • 句子相似性
  • 语言: 英语
  • 数据集名称: FLAN v2 Cot Deduplicated Dataset
  • 数据规模: 1K<n<10K

数据预处理

  • 移除targets中少于100个token的指令。
  • 使用余弦相似度阈值0.95进行数据去重。

致谢

  • 原始数据集由SirNeural/flan_v2提供。
  • 使用的分词器: bert-base-uncased from Hugging Face。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作