jojo0217/korean_safe_conversation

Name: jojo0217/korean_safe_conversation
Creator: jojo0217
Published: 2024-04-27 11:57:10
License: 暂无描述

Hugging Face2024-04-27 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/jojo0217/korean_safe_conversation

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 task_categories: - text-generation language: - ko --- # 개요 성균관대 - VAIV COMPANY 산학협력을 위해 구축한 일상대화 데이터입니다. 자연스럽고 윤리적인 챗봇 구축을 위한 데이터셋 입니다. 고품질을 위해 대부분의 과정에서 사람이 직접 검수하였으며 생성 번역 등의 과정에서는 GPT3.5-turbo, GPT4를 사용하였습니다. 일상대화에 중점을 두면서 혐오표현, 편향적인 대답을 지양하면서 일상대화를 하는 것에 중점을 두었습니다. # 데이터 구축 과정 ![score](./img/data_table.png) # 데이터 구성 |데이터 종류|개수|비고|url| |:---|---:|---:|---:| |일상대화 데이터셋|2063|국립국어원 모두의 말뭉치|https://corpus.korean.go.kr/request/reausetMain.do?lang=ko| |감성대화|1020|AIHub 감성대화 데이터|https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=86| |혐오표현|1126|AIHub 윤리 검증 데이터|https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=558| |Evol-inst|476|Evol-inst 방식으로 직접 생성|| |KoAlpaca v1.1|19955|데이터 유사도 검사, 노이즈 제거 등 수정|KoAlpaca/KoAlpaca_v1.1.jsonl at main · Beomi/KoAlpaca (github.com)| |Yitingxie|1300|rlhf 목적 챗봇 대화 데이터 번역하여 사용|https://huggingface.co/datasets/yitingxie/rlhf-reward-datasets?row=97| |네이버 SQuARe|1039|네이버 편향성 데이터|https://github.com/naver-ai/korean-safety-benchmarks| |총합|26979||| ./raw/폴더에 각각 파일이 담겨있습니다. # contributor --- [JoJo0217](https://github.com/JoJo0217) [hap](https://github.com/chohabin) [moseoridev](https://github.com/moseoridev) [jangjunewoo](https://github.com/jangjunewoo) [Y8N](https://github.com/yeyoon4)

license: apache-2.0 任务类别： - 文本生成语言： - 韩语 # 概述本数据集为成均馆大学与VAIV COMPANY校企合作所构建的日常对话数据。本数据集旨在用于构建自然且符合伦理规范的聊天机器人。为保障数据集的高品质，绝大多数环节均由人工亲自审核；在生成、翻译等流程中，则使用了GPT-3.5-turbo与GPT-4模型。本数据集以日常对话为核心构建方向，同时严格规避仇恨言论与偏见性回复，聚焦于自然日常交互对话的生成。 # 数据构建流程 ![数据评分表](./img/data_table.png) # 数据构成 |数据类型|数量|备注|来源链接| |:---|---:|---:|---:| |日常对话数据集|2063|韩国国立国语院全民语料库|https://corpus.korean.go.kr/request/reausetMain.do?lang=ko| |情感对话数据|1020|AIHub情感对话数据集|https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=86| |仇恨言论相关数据|1126|AIHub伦理验证数据集|https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=558| |Evol-inst数据集|476|采用Evol-inst方法自主生成|| |KoAlpaca v1.1|19955|经过数据相似度检测、噪声去除等预处理修正|KoAlpaca/KoAlpaca_v1.1.jsonl at main · Beomi/KoAlpaca (github.com)| |Yitingxie|1300|对基于人类反馈的强化学习（Reinforcement Learning from Human Feedback，简称RLHF）目标聊天机器人对话数据集进行翻译后使用|https://huggingface.co/datasets/yitingxie/rlhf-reward-datasets?row=97| |Naver SQuARe|1039|Naver偏见性数据集|https://github.com/naver-ai/korean-safety-benchmarks| |总计|26979||| 所有数据文件均存放于./raw/目录下。 # 贡献者 --- [JoJo0217](https://github.com/JoJo0217) [hap](https://github.com/chohabin) [moseoridev](https://github.com/moseoridev) [jangjunewoo](https://github.com/jangjunewoo) [Y8N](https://github.com/yeyoon4)

提供机构：

jojo0217

原始信息汇总

数据集概述

数据集来源与目的

由성균관대 - VAIV COMPANY合作构建，旨在支持自然且符合伦理的聊天机器人开发。
数据集主要关注日常对话，避免使用仇恨言论和偏见回答。

数据集构建过程

大部分过程由人工直接审核，确保高质量。
在生成和翻译等过程中使用了GPT3.5-turbo和GPT4技术。

数据集构成

数据种类	数量	备注	URL
日常对话数据集	2063	基于国立国语院的所有人的词汇库	国立国语院
情感对话	1020	AIHub情感对话数据	AIHub
仇恨言论	1126	AIHub伦理验证数据	AIHub
Evol-inst	476	采用Evol-inst方法直接生成	-
KoAlpaca v1.1	19955	经过数据相似度检查和噪音去除等修改	KoAlpaca
Yitingxie	1300	用于rlhf目的的聊天机器人对话数据，通过翻译使用	Hugging Face
네이버 SQuARe	1039	네이버偏见数据	Naver AI

数据存储位置

数据文件存储在./raw/文件夹中。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，构建高质量对话数据集是推动聊天机器人技术发展的关键。本数据集通过整合多个权威来源，包括国立国语院的日常对话语料、AIHub的情感对话与伦理验证数据，以及经过人工筛选的KoAlpaca和Evol-inst生成内容，确保了数据的多样性与可靠性。构建过程中，团队采用人工审核与GPT-3.5-turbo、GPT-4等先进模型辅助生成与翻译，严格避免偏见与仇恨言论，聚焦于日常对话的自然性与伦理性，最终形成了包含26,979条样本的综合性资源。

使用方法

在应用层面，本数据集适用于文本生成任务，特别是聊天机器人的训练与评估。用户可通过HuggingFace平台直接加载数据，利用其丰富的对话样本进行模型微调或基准测试。建议结合具体研究目标，筛选相关子集如日常对话或伦理验证部分，以优化模型在安全对话方面的表现。数据以原始文件形式提供，便于进一步预处理与分析，为自然语言处理领域的创新实践提供坚实支撑。

背景与挑战

背景概述

在人工智能伦理与自然语言处理交叉领域，安全对话数据集的构建成为推动负责任AI发展的关键。由成均馆大学与VAIV公司通过产学研合作，于近年联合创建的韩语安全对话数据集，旨在应对生成式AI在韩语语境下面临的伦理挑战。该数据集聚焦于构建自然且符合伦理的聊天机器人，核心研究问题在于如何平衡对话的自然流畅性与内容的安全性，避免仇恨言论与偏见性回应。通过整合多源高质量语料并引入人工审核与先进语言模型辅助处理，该工作为韩语AI伦理评估与安全对话生成提供了重要基准，显著提升了相关领域对文化敏感性对话建模的重视。

当前挑战

该数据集致力于解决韩语安全对话生成领域的核心挑战，即在保持对话自然性与多样性的同时，有效识别并规避仇恨言论、文化偏见及伦理风险，这要求模型具备深层的语境理解与文化敏感性。在构建过程中，挑战主要体现在多源异构数据的融合与质量控制上，包括从国立国语院、AIHub等机构获取的语料在格式、风格与标注标准上的不一致性需进行对齐；同时，依赖GPT-3.5/4等模型进行生成与翻译时，需克服其可能引入的隐性偏差，并通过大量人工审核确保数据可靠性，这一过程耗费显著资源且对标注者的文化素养提出较高要求。

常用场景

经典使用场景

在自然语言处理领域，构建安全、伦理的对话系统是当前研究的热点。该数据集聚焦于韩语日常对话，通过整合多种来源的对话数据，为开发自然且符合伦理的聊天机器人提供了关键资源。其经典使用场景在于训练和评估对话生成模型，确保模型在生成回复时能够避免偏见和仇恨言论，同时保持对话的自然流畅性。数据集涵盖了日常对话、情感对话及伦理验证数据，使得模型能够在多样化的语境中进行学习，提升对话系统的安全性和实用性。

解决学术问题

该数据集主要解决了对话系统中普遍存在的伦理和安全问题。在学术研究中，模型往往容易生成带有偏见或仇恨的回复，这限制了其在实际应用中的可靠性。通过提供经过人工审核的高质量韩语对话数据，该数据集帮助研究者训练模型识别和避免不当内容，从而推动对话生成技术向更负责任的方向发展。其意义在于为韩语自然语言处理社区提供了一个基准，促进了伦理人工智能的研究，并影响了后续安全对话数据集的构建标准。

实际应用

在实际应用中，该数据集被广泛用于开发韩语聊天机器人和虚拟助手。随着人工智能在客服、教育、娱乐等领域的普及，确保对话系统安全、无偏见至关重要。基于此数据集训练的模型能够应用于社交媒体平台、在线客服系统以及个人智能设备中，提供更加自然且符合伦理的交互体验。这不仅提升了用户满意度，还降低了因模型不当回复引发的社会风险，推动了人工智能技术在韩语市场的负责任部署。

数据集最近研究