jhflow/orca-gugugo-ko-dedup
收藏Hugging Face2023-12-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jhflow/orca-gugugo-ko-dedup
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从squarelike/OpenOrca-gugugo-ko数据集中提取的gpt4生成内容,并移除了翻译任务。移除翻译任务时,简单地删除了question和response列中包含번역(翻译)一词的样本,因此可能并未完全移除所有翻译样本。此外,还应用了NearDeDup算法进行去重。
该数据集是从squarelike/OpenOrca-gugugo-ko数据集中提取的gpt4生成内容,并移除了翻译任务。移除翻译任务时,简单地删除了question和response列中包含번역(翻译)一词的样本,因此可能并未完全移除所有翻译样本。此外,还应用了NearDeDup算法进行去重。
提供机构:
jhflow
原始信息汇总
数据集概述
数据处理步骤
- 数据提取:从
squarelike/OpenOrca-gugugo-ko数据集中提取了由 GPT-4 生成的内容。 - 任务过滤:移除了翻译任务。具体操作是,如果 "question" 和 "response" 列中包含 "번역" 这个词,则移除该样本。需要注意的是,这种方法可能不完全彻底。
- 去重处理:应用了 NearDeDup 算法进行去重。
待办事项
- [ ] 基于 ICL 的翻译任务分类和翻译样本的二次过滤。
原始数据集
- 原始数据集链接:squarelike/OpenOrca-gugugo-ko



