strongminsu/ko-en-structured-translations

Name: strongminsu/ko-en-structured-translations
Creator: strongminsu
Published: 2025-12-06 06:15:24
License: 暂无描述

Hugging Face2025-12-06 更新2025-12-20 收录

下载链接：

https://hf-mirror.com/datasets/strongminsu/ko-en-structured-translations

下载链接

链接失效反馈

官方服务：

资源简介：

--- datasets: - username/ko-en-multistyle-corpus language: - ko - en license: mit tags: - translation - korean - english - parallel - seq2seq - transformer - education - nlp size_categories: - 10K<n<100K task_categories: - translation pretty_name: Korean–English Multistyle Parallel Corpus --- # Korean–English Multistyle Parallel Corpus 한국어 사용자에게 익숙한 표현 기반의 다도메인·다문체 한–영 병렬 코퍼스 ## 소개(Introduction) 저는 머신러닝, 인공지능 수업을 진행하는 강사입니다. Seq2Seq, Attention, Transformer 등 자연어처리(NLP) 수업을 진행하며 한국 학습자에게 **자연스럽고 익숙한 한–영 번역 데이터셋의 부족**을 경험했습니다. 기존 공개 데이터셋은 - 도메인 다양성이 부족하거나 - 문체가 한국 사용자에게 자연스럽지 않거나 - 전반적으로 문장의 퀄리티가 매우 부족하여 **학습한 번역 모델의 실제 성능이 기대만큼 나오지 않는 문제**가 있었습니다. 이 문제를 해결하기 위해, 딥러닝 강사로서 langchain을 사용하여 **직접 고품질 병렬 데이터를 자동으로 생성·정제하여 구성한 데이터셋**입니다. 한국어 사용자에게 익숙한 표현을 중심으로 다양한 문체, 문장 구조를 포함해 교육용·연구용·실습용으로 바로 사용 가능한 실용적 번역 코퍼스를 목표로 합니다. ## 데이터셋 개요(Dataset Overview) | 항목 | 내용 | |------|------| | **총 샘플 수** | 9,493개 | | **train** | 7,594 | | **valid** | 949 | | **test** | 950 | | **언어쌍** | 한국어(ko) – 영어(en) | | **도메인(topic)** | 20개 (여행, 일상, 건강, 식당, IT/AI, 스포츠, 교육, 감정표현 등) | | **문체(style)** | 8개 (대화체, SNS, 보고서체, 기술 설명체, 감정표현, 고객센터 등) | | **문장 유형(type)** | 6개 (단문, 복문, 조건문, 비교문, 원인·결과문, 명령/요청문) | | **생성 모델** | gpt-4o-mini | | **프롬프트 버전** | v2_structured | | **라이선스** | MIT License | --- ### 파일 구성(File Structure) ``` dataset/ ├── train.csv ├── valid.csv ├── test.csv └── parallel_data_gpt-4o-mini_v2_structured_YYYYMMDD_HHMMSS.csv(전체파일, 버전관리용 이름) ``` CSV 컬럼: | 컬럼명 | 설명 | |--------|-------| | `id` | 고유 ID | | `topic` | 문장의 주제 | | `style` | 문체 스타일 | | `type` | 문장 구조 | | `ko` | 한국어 문장 | | `en` | 영어 문장 | | `model` | 생성 모델명 | | `prompt_version` | 프롬프트 버전 | | `created_at` | 생성 timestamp | | `split` | train/valid/test 구분 | --- ## 데이터 예시(Examples) | topic | style | type | ko | en | |-------|--------|--------|-----|-----| | 건강 | 대화체 | 조건문 | 스트레스를 관리하지 않으면 문제가 생길 수 있어. | If you don't manage your stress, problems may arise. | | 경제/금융 | 감정 표현 스타일 | 비교문 | 이 주식의 수익률은 다른 주식들보다 더 높아. | The return on this stock is higher than that of other stocks. | | 스포츠 | 기술 설명체 | 조건문 | 체스에서는 전략이 승패를 좌우하니까 깊게 생각해야 해. | In chess, strategy determines the outcome, so you need to think deeply. | | 고객센터 | 고객센터 안내 스타일 | 단문 | 신속한 처리 부탁드려요. | I would appreciate a quick resolution. | | 식당 | SNS 스타일 | 명령/요청문 | 테이크아웃 가능해요? | Is takeout available? | --- ## 데이터 생성 방식(How It Was Created) 이 데이터셋은 **LangChain + OpenAI GPT-4o-mini**를 이용해 topic × style × type 조합별로 구조화된 JSON 형태의 병렬 문장을 생성한 뒤, 길이/중복/문법 기반 필터링을 거쳐 구축되었습니다. 생성 조건 요약: - 한국어 10–40자, 영어 10–80자 범위 - 문체(반말/해요체/격식체)를 균형 있게 포함 - JSON 구조 준수 (pairs → ko/en) - 의미 대응 정확성 유지 - 직역투 지양 - 중복 제거 후 무작위 셔플 - train/valid/test = 8:1:1 자동 분할 --- ## 생성 코드(Generation Pipeline) make_dataset.ipynb의 코드를 실행하면 누구나 같은 구조로 데이터를 확장 생성할 수 있습니다. .env 파일을 만들어 해당 파일에 OPENAI_API_KEY를 넣어야 정상적으로 동작합니다. ## 사용 방법(Usage) ```python from datasets import load_dataset ds = load_dataset("strongminsu/ko-en-structured-translations") print(ds["train"][0]) ``` --- ## License 이 데이터셋은 **MIT License** 하에 자유롭게 사용할 수 있습니다. 사용자는 출처를 유지하는 조건으로 상업적/비상업적 목적 모두 활용 가능합니다. --- ### 만든 이유와 의의 이 데이터셋은 **처음 머신러닝과 딥러닝을 배우는 학생들의 번역 모델**을 보다 효과적으로 학습시키기 위해 제작되었습니다. 특히 다음 용도에 적합합니다: - Transformer / Seq2Seq 실습 - 번역 모델 튜닝 - 학습자 프로젝트용 번역 데이터 구축 - LLM 기반 번역 품질 향상 실험 실제 강의 환경에서 모델 성능이 기존 공개 데이터셋 대비 더 자연스럽고 정확한 출력으로 개선됨을 확인했습니다. --- ## Contact 김민수 강사 📧 rlaalstn1504@naver.com 교육·연구·협업 문의 언제든 환영합니다.

### 数据集元数据数据集仓库：username/ko-en-multistyle-corpus 支持语言：韩语、英语许可证：MIT 标签：机器翻译、韩语、英语、平行语料、seq2seq、Transformer、教育、自然语言处理（NLP）样本量区间：10000 < 样本量 < 100000 任务类别：机器翻译官方名称：韩英多风格平行语料库 ## 韩英多风格平行语料库面向韩语使用者的自然表达导向型多领域、多风格韩英平行语料库 ## 介绍我是一名讲授机器学习、人工智能课程的讲师。在开展Seq2Seq、注意力机制、Transformer等自然语言处理（NLP）课程的过程中，我深切感受到韩语学习者**缺乏自然且贴合母语习惯的韩英翻译数据集**的痛点。现有公开数据集普遍存在以下问题：一是领域覆盖不足；二是文本风格不符合韩语使用者的表达习惯；三是整体文本质量偏低，最终导致训练得到的翻译模型实际表现未能达到预期。为解决上述问题，作为深度学习讲师，我借助LangChain工具**自主完成了高质量平行语料的自动化生成与筛选，最终构建了本数据集**。本数据集以贴合韩语使用者习惯的表达为核心，涵盖多种文本风格与句式结构，旨在打造可直接用于教学、研究与实操的实用型翻译语料库。 ## 数据集概览 | 项目 | 详情 | |------|------| | 总样本量 | 9493条 | | 训练集 | 7594条 | | 验证集 | 949条 | | 测试集 | 950条 | | 语言对 | 韩语（ko）- 英语（en） | | 主题领域 | 共20类（涵盖旅行、日常、健康、餐饮、IT/AI、体育、教育、情感表达等） | | 文本风格 | 共8类（包括对话体、社交媒体体、报告体、技术说明体、情感表达体、客服体等） | | 句子类型 | 共6类（短句、复合句、条件句、比较句、因果句、祈使/请求句） | | 生成模型 | GPT-4o-mini | | 提示词版本 | v2_structured | | 许可证 | MIT许可证 | ## 文件结构 dataset/ ├── train.csv ├── valid.csv ├── test.csv └── parallel_data_gpt-4o-mini_v2_structured_YYYYMMDD_HHMMSS.csv（全量文件，用于版本管理） CSV字段说明： | 字段名 | 说明 | |--------|------| | `id` | 唯一标识符 | | `topic` | 句子主题 | | `style` | 文本风格 | | `type` | 句子结构 | | `ko` | 韩语句子 | | `en` | 英语句子 | | `model` | 生成模型名称 | | `prompt_version` | 提示词版本 | | `created_at` | 生成时间戳 | | `split` | 数据集划分（train/valid/test） | ## 数据示例 | 主题 | 风格 | 句子类型 | 韩语原文 | 英语译文 | |------|------|----------|----------|----------| | 健康 | 对话体 | 条件句 | 若不管理压力，可能会引发问题。 | If you don't manage your stress, problems may arise. | | 经济/金融 | 情感表达风格 | 比较句 | 该股票的收益率高于其他股票。 | The return on this stock is higher than that of other stocks. | | 体育 | 技术说明体 | 条件句 | 象棋中策略决定胜负，因此需要深入思考。 | In chess, strategy determines the outcome, so you need to think deeply. | | 客服 | 客服引导风格 | 短句 | 请尽快处理。 | I would appreciate a quick resolution. | | 餐饮 | 社交媒体风格 | 祈使/请求句 | 可以提供外带服务吗？ | Is takeout available? | ## 数据生成方式本数据集**依托LangChain与OpenAI GPT-4o-mini**，针对主题×风格×类型的组合生成结构化JSON格式的平行句子，随后通过长度、重复度与语法校验完成筛选，最终构建完成。生成规则概要如下： - 韩语句子长度控制在10-40字符，英语句子长度控制在10-80字符 - 均衡涵盖敬语、半语、正式体等多种文本风格 - 严格遵循JSON格式规范（数据结构为`pairs → ko/en`） - 确保语义对应准确无误 - 避免生硬直译 - 去除重复样本后进行随机洗牌 - 按照8:1:1的比例自动划分为训练集、验证集与测试集 ## 生成代码运行`make_dataset.ipynb`中的代码，任何人都可按照相同结构扩展生成数据集。需先创建`.env`文件，并在其中配置`OPENAI_API_KEY`后方可正常运行。 ## 使用方法可通过Hugging Face Datasets库直接加载本数据集，示例代码如下： python from datasets import load_dataset ds = load_dataset("strongminsu/ko-en-structured-translations") print(ds["train"][0]) ## 许可证本数据集遵循**MIT许可证**，可自由使用。使用者只需保留原出处，即可将其用于商业或非商业用途。 ## 创作初衷与价值本数据集专为**帮助机器学习与深度学习入门学习者高效训练翻译模型**而打造。其适配场景包括： - Transformer/Seq2Seq模型实操练习 - 翻译模型微调 - 学习者项目所需翻译数据集构建 - 基于大语言模型（LLM）的翻译质量优化实验经实际教学场景验证，使用本数据集训练的模型输出比基于现有公开数据集训练的模型更加自然准确。 ## 联系方式讲师：金珉秀邮箱：rlaalstn1504@naver.com 欢迎随时咨询教育、研究与合作相关事宜。

提供机构：

strongminsu

5,000+

优质数据集

54 个

任务类型

进入经典数据集