five

jhflow/orca-gugugo-ko-dedup

收藏
Hugging Face2023-12-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jhflow/orca-gugugo-ko-dedup
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从squarelike/OpenOrca-gugugo-ko数据集中提取的gpt4生成内容,并移除了翻译任务。移除翻译任务时,简单地删除了question和response列中包含번역(翻译)一词的样本,因此可能并未完全移除所有翻译样本。此外,还应用了NearDeDup算法进行去重。

该数据集是从squarelike/OpenOrca-gugugo-ko数据集中提取的gpt4生成内容,并移除了翻译任务。移除翻译任务时,简单地删除了question和response列中包含번역(翻译)一词的样本,因此可能并未完全移除所有翻译样本。此外,还应用了NearDeDup算法进行去重。
提供机构:
jhflow
原始信息汇总

数据集概述

数据处理步骤

  1. 数据提取:从 squarelike/OpenOrca-gugugo-ko 数据集中提取了由 GPT-4 生成的内容。
  2. 任务过滤:移除了翻译任务。具体操作是,如果 "question" 和 "response" 列中包含 "번역" 这个词,则移除该样本。需要注意的是,这种方法可能不完全彻底。
  3. 去重处理:应用了 NearDeDup 算法进行去重。

待办事项

  • [ ] 基于 ICL 的翻译任务分类和翻译样本的二次过滤。

原始数据集

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作