five

werty1248/sharegpt-tagengo-gpt4-ko

收藏
Hugging Face2024-05-05 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/werty1248/sharegpt-tagengo-gpt4-ko
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 task_categories: - text-generation language: - ko size_categories: - 1K<n<10K --- **Original Dataset**: [lightblue/tagengo-gpt4](https://huggingface.co/datasets/lightblue/tagengo-gpt4) ### ShareGPT-tagengo-GPT4-ko - LMSYS-Chat-1M를 통해 수집된 실제 유저들과 GPT-4(`gpt-4-0125-preview`) 사이의 단발성 대화 데이터 셋입니다. - tagengo-gpt4 데이터 셋에서 한국어 데이터 1,609개를 추출한 뒤, 사람이 직접 확인하여 일부 불필요한/중복 질문, 잘못된 답변 등을 제거했습니다. - 자세한 언어별 분류 방법은 [lightblue/tagengo-gpt4](https://huggingface.co/datasets/lightblue/tagengo-gpt4)를 참고하세요. - 번역이 아닌, 실제 한국어로 주고 받은 데이터 셋입니다. ### Files - **sharegpt_tagengo_ko.json**: 불필요한/중복 질문 및 잘못된 답변을 제거한 1,540개 데이터입니다. - **sharegpt_tagengo_ko_no_sorry.json**: sharegpt_tagengo_ko.json에서 "죄송"으로 시작되는 답변(GPT-4의 답변 거부)을 제거한 1,488개 데이터입니다. ### License - [lightblue/tagengo-gpt4](https://huggingface.co/datasets/lightblue/tagengo-gpt4)의 라이선스 정책에 따릅니다.
提供机构:
werty1248
原始信息汇总

数据集概述

数据集名称

  • ShareGPT-tagengo-GPT4-ko

数据来源

  • 数据集来源于lightblue/tagengo-gpt4,通过LMSYS-Chat-1M收集的实际用户与GPT-4(gpt-4-0125-preview)之间的单次对话数据。

数据处理

  • 从tagengo-gpt4数据集中提取了1,609个韩语数据,经过人工审核,移除了部分不必要/重复的问题及错误答案。

数据特点

  • 数据集为非翻译的实际韩语对话数据。

文件详情

  • sharegpt_tagengo_ko.json: 经过筛选,包含1,540个数据,移除了不必要/重复的问题及错误答案。
  • sharegpt_tagengo_ko_no_sorry.json: 在sharegpt_tagengo_ko.json基础上,进一步移除了以“죄송”(对不起)开头的答案,共1,488个数据。

许可证

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作