werty1248/sharegpt-tagengo-gpt4-ko
收藏Hugging Face2024-05-05 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/werty1248/sharegpt-tagengo-gpt4-ko
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
task_categories:
- text-generation
language:
- ko
size_categories:
- 1K<n<10K
---
**Original Dataset**: [lightblue/tagengo-gpt4](https://huggingface.co/datasets/lightblue/tagengo-gpt4)
### ShareGPT-tagengo-GPT4-ko
- LMSYS-Chat-1M를 통해 수집된 실제 유저들과 GPT-4(`gpt-4-0125-preview`) 사이의 단발성 대화 데이터 셋입니다.
- tagengo-gpt4 데이터 셋에서 한국어 데이터 1,609개를 추출한 뒤, 사람이 직접 확인하여 일부 불필요한/중복 질문, 잘못된 답변 등을 제거했습니다.
- 자세한 언어별 분류 방법은 [lightblue/tagengo-gpt4](https://huggingface.co/datasets/lightblue/tagengo-gpt4)를 참고하세요.
- 번역이 아닌, 실제 한국어로 주고 받은 데이터 셋입니다.
### Files
- **sharegpt_tagengo_ko.json**: 불필요한/중복 질문 및 잘못된 답변을 제거한 1,540개 데이터입니다.
- **sharegpt_tagengo_ko_no_sorry.json**: sharegpt_tagengo_ko.json에서 "죄송"으로 시작되는 답변(GPT-4의 답변 거부)을 제거한 1,488개 데이터입니다.
### License
- [lightblue/tagengo-gpt4](https://huggingface.co/datasets/lightblue/tagengo-gpt4)의 라이선스 정책에 따릅니다.
提供机构:
werty1248
原始信息汇总
数据集概述
数据集名称
- ShareGPT-tagengo-GPT4-ko
数据来源
- 数据集来源于lightblue/tagengo-gpt4,通过LMSYS-Chat-1M收集的实际用户与GPT-4(
gpt-4-0125-preview)之间的单次对话数据。
数据处理
- 从tagengo-gpt4数据集中提取了1,609个韩语数据,经过人工审核,移除了部分不必要/重复的问题及错误答案。
数据特点
- 数据集为非翻译的实际韩语对话数据。
文件详情
- sharegpt_tagengo_ko.json: 经过筛选,包含1,540个数据,移除了不必要/重复的问题及错误答案。
- sharegpt_tagengo_ko_no_sorry.json: 在sharegpt_tagengo_ko.json基础上,进一步移除了以“죄송”(对不起)开头的答案,共1,488个数据。
许可证
- 遵循lightblue/tagengo-gpt4的许可证政策。



