junelee/sharegpt_deepl_ko
收藏Hugging Face2023-04-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/junelee/sharegpt_deepl_ko
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是将shareGPT数据集中的60万条英文对话通过DeepL翻译成韩语的版本。翻译工作正在进行中,目前已完成62万条对话的翻译。数据集包含多个文件,包括原始英文对话文件、翻译后的韩文对话文件、经过清理的韩文对话文件以及为Alpaca微调准备的结构化文件。
This dataset is a Korean-translated iteration of 600,000 English conversations sourced from the shareGPT dataset, translated using DeepL. The translation effort is still ongoing, with 620,000 conversations successfully completed so far. The dataset contains multiple file types: original English conversation files, post-translation Korean conversation files, cleaned Korean conversation files, and structured files prepared for Alpaca fine-tuning.
提供机构:
junelee
原始信息汇总
shareGPT 한국어 번역 데이터셋
데이터셋 설명
- 대상: 60만 대화문을 한국어로 번역
- 번역 도구: DeepL
- 진행 상황: 62만 대화문 중 62만 대화문 번역 완료
파일 구조
- original_dataset.json: 원본 shareGPT 파일 (62만 영문대화문)
- ko_dataset.json: 번역본 shareGPT 파일, 구조 원본과 동일
- ko_dataset_2.json: ko_dataset.json에서 불안정한 대화 삭제 버전
- ko_alpaca_style_dataset.json: 알파카 파인튜닝을 위한 구조로 변경
라이센스
- 원본 데이터: OPENAI 약관 따르기
- 기타: 저작자표시 2.0 대한민국 (CC BY 2.0 KR)



