didi0di/KoChatGPT
收藏数据集概述
基本信息
- 许可证: 未知
- 语言: 韩语 (ko)
- 任务类别: 文本生成
- 标签: 指令, SFT
- 大小类别: 10K<n<100K
数据集特征
- prompt: 字符串类型
- completion: 字符串类型
- tokens: 整数类型 (int64)
数据集分割
- 训练集:
- 示例数量: 12,000
- 字节数: 4,902,713
- 下载大小: 2,876,495
- 数据集大小: 4,902,713
数据集内容
-
1.2.1) 韩语QA数据集的自动回答生成(ChatGPT):
-
数据集位置: data/train
-
目的: 从仅能生成下一个单词的模型转变为能对问题做出良好回答的模型
-
方法: 使用ChatGPT自动生成回答,尽管需要人工标注
-
示例:
{ "prompt": "술 먹고 싶어", "completion": "술은 알코올이 함유된 음료수이며, 건강에 나쁜 영향을 미칠 수 있습니다. 따라서 술을 마시기 전에 본인의 건강 상태와 함께 적당한 양을 마시는 것이 중요합니다. 술을 마시기 전에 반드시 20세 이상인지 확인하시고, 규정된 양 이내에서 적절하게 즐기시길 바랍니다. 또한 술을 마시고 운전하는 것은 절대 금지하시기 바랍니다.", "tokens": 189 }
-
-
1.2.2) 使用langchain的聊天数据自动生成(ChatGPT):
-
数据集文件: kochatgpt_1_SFT_conversation.jsonl
-
目的: 从仅能生成下一个单词的模型转变为能对问题做出良好回答的模型
-
方法: 使用ChatGPT生成人与AI之间的对话数据
-
示例:
<<start conversation>> <사람>: 그렇군요. 무엇에 대해 이야기하고 싶으세요? <챗봇>: 궁금하신 주제에 대해 이야기하고 싶으신가요? 예를 들어 여행, 식품, 스포츠, 등등 다양한 토론에 참여할 수 있습니다. <사람>: 그래서 스포츠에 대해 이야기해볼까요? <챗봇>: 그렇습니다. 스포츠에 대해 말씀하시겠습니까? 스포츠는 다양한 종목과 관련된 주제로 비슷한 경기를 비교하거나 새로운 경기를 분석할 수 있습니다. 또한 스포츠 관련 소식과 업데이트 등을 제공할 수 있습니다. <사람>: 괜찮습니다. 소식이나 업데이트는 어떻게 받을 수 있나요? <챗봇>: 귀하는 스포츠 관련 소식과 업데이트를 접할 수 있는 다양한 방법을 사용할 수 있습니다. 예를 들면 스포츠 사이트, 스포츠 앱, 스포츠 유튜브 채널 등을 통해 스포츠 소식과 업데이트를 받을 수 있습니다. 또한 소셜 미디어에서도 스포츠 소식과 업데이트를 받을 수 있습니다. <사람>: 감사합니다. 이제 스포츠 소식과 업데이트를 받아볼 준비가 되었습니다. <챗봇>: 그렇게 되었군요. 스포츠 소식과 업데이트를 받기 위해 귀하가 해야 할 준비는 무엇인가요? 스포츠 사이트, 스포츠 앱, 스포츠 유튜브 채널, 소셜 미디어 등을 통해 스포츠 소식과 업데이트를 받기 위해 준비해야 합니다.
-



