ayushrupapara/flanv2_cot_dedepulicated

Name: ayushrupapara/flanv2_cot_dedepulicated
Creator: ayushrupapara
Published: 2024-06-15 09:19:50
License: 暂无描述

Hugging Face2024-06-15 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/ayushrupapara/flanv2_cot_dedepulicated

下载链接

链接失效反馈

官方服务：

资源简介：

FLAN v2 Cot Deduplicated Dataset是一个用于问答、文本生成和句子相似性任务的英文数据集。数据集经过预处理，移除了targets中少于100个token的指令，并使用余弦相似度阈值0.95进行了去重处理。原始数据集由SirNeural/flan_v2提供，使用了Hugging Face的bert-base-uncased分词器。

The FLAN v2 Cot Deduplicated Dataset is an English dataset designed for tasks such as question-answering, text generation, and sentence similarity. The dataset has been preprocessed to remove instructions with fewer than 100 tokens in targets and deduplicated using a cosine similarity threshold of 0.95. The original dataset is provided by SirNeural/flan_v2, and the bert-base-uncased tokenizer from Hugging Face was used.

提供机构：

ayushrupapara

原始信息汇总

FLAN v2 Cot Deduplicated Dataset

数据集概述

许可证: Apache-2.0
任务类别:
- 问答
- 文本生成
- 句子相似性
语言: 英语
数据集名称: FLAN v2 Cot Deduplicated Dataset
数据规模: 1K<n<10K

数据预处理

移除targets中少于100个token的指令。
使用余弦相似度阈值0.95进行数据去重。

致谢

原始数据集由SirNeural/flan_v2提供。
使用的分词器: bert-base-uncased from Hugging Face。

5,000+

优质数据集

54 个

任务类型

进入经典数据集