ayushrupapara/flanv2_cot_dedepulicated
收藏Hugging Face2024-06-15 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/ayushrupapara/flanv2_cot_dedepulicated
下载链接
链接失效反馈官方服务:
资源简介:
FLAN v2 Cot Deduplicated Dataset是一个用于问答、文本生成和句子相似性任务的英文数据集。数据集经过预处理,移除了targets中少于100个token的指令,并使用余弦相似度阈值0.95进行了去重处理。原始数据集由SirNeural/flan_v2提供,使用了Hugging Face的bert-base-uncased分词器。
The FLAN v2 Cot Deduplicated Dataset is an English dataset designed for tasks such as question-answering, text generation, and sentence similarity. The dataset has been preprocessed to remove instructions with fewer than 100 tokens in targets and deduplicated using a cosine similarity threshold of 0.95. The original dataset is provided by SirNeural/flan_v2, and the bert-base-uncased tokenizer from Hugging Face was used.
提供机构:
ayushrupapara
原始信息汇总
FLAN v2 Cot Deduplicated Dataset
数据集概述
- 许可证: Apache-2.0
- 任务类别:
- 问答
- 文本生成
- 句子相似性
- 语言: 英语
- 数据集名称: FLAN v2 Cot Deduplicated Dataset
- 数据规模: 1K<n<10K
数据预处理
- 移除targets中少于100个token的指令。
- 使用余弦相似度阈值0.95进行数据去重。
致谢
- 原始数据集由SirNeural/flan_v2提供。
- 使用的分词器: bert-base-uncased from Hugging Face。



