five

jojo0217/korean_safe_conversation

收藏
Hugging Face2024-04-27 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/jojo0217/korean_safe_conversation
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 task_categories: - text-generation language: - ko --- # 개요 성균관대 - VAIV COMPANY 산학협력을 위해 구축한 일상대화 데이터입니다. 자연스럽고 윤리적인 챗봇 구축을 위한 데이터셋 입니다. 고품질을 위해 대부분의 과정에서 사람이 직접 검수하였으며 생성 번역 등의 과정에서는 GPT3.5-turbo, GPT4를 사용하였습니다. 일상대화에 중점을 두면서 혐오표현, 편향적인 대답을 지양하면서 일상대화를 하는 것에 중점을 두었습니다. # 데이터 구축 과정 ![score](./img/data_table.png) # 데이터 구성 |데이터 종류|개수|비고|url| |:---|---:|---:|---:| |일상대화 데이터셋|2063|국립국어원 모두의 말뭉치|https://corpus.korean.go.kr/request/reausetMain.do?lang=ko| |감성대화|1020|AIHub 감성대화 데이터|https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=86| |혐오표현|1126|AIHub 윤리 검증 데이터|https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=558| |Evol-inst|476|Evol-inst 방식으로 직접 생성|| |KoAlpaca v1.1|19955|데이터 유사도 검사, 노이즈 제거 등 수정|KoAlpaca/KoAlpaca_v1.1.jsonl at main · Beomi/KoAlpaca (github.com)| |Yitingxie|1300|rlhf 목적 챗봇 대화 데이터 번역하여 사용|https://huggingface.co/datasets/yitingxie/rlhf-reward-datasets?row=97| |네이버 SQuARe|1039|네이버 편향성 데이터|https://github.com/naver-ai/korean-safety-benchmarks| |총합|26979||| ./raw/폴더에 각각 파일이 담겨있습니다. # contributor --- [JoJo0217](https://github.com/JoJo0217) [hap](https://github.com/chohabin) [moseoridev](https://github.com/moseoridev) [jangjunewoo](https://github.com/jangjunewoo) [Y8N](https://github.com/yeyoon4)

license: apache-2.0 任务类别: - 文本生成 语言: - 韩语 # 概述 本数据集为成均馆大学与VAIV COMPANY校企合作所构建的日常对话数据。 本数据集旨在用于构建自然且符合伦理规范的聊天机器人。 为保障数据集的高品质,绝大多数环节均由人工亲自审核;在生成、翻译等流程中,则使用了GPT-3.5-turbo与GPT-4模型。 本数据集以日常对话为核心构建方向,同时严格规避仇恨言论与偏见性回复,聚焦于自然日常交互对话的生成。 # 数据构建流程 ![数据评分表](./img/data_table.png) # 数据构成 |数据类型|数量|备注|来源链接| |:---|---:|---:|---:| |日常对话数据集|2063|韩国国立国语院全民语料库|https://corpus.korean.go.kr/request/reausetMain.do?lang=ko| |情感对话数据|1020|AIHub情感对话数据集|https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=86| |仇恨言论相关数据|1126|AIHub伦理验证数据集|https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=558| |Evol-inst数据集|476|采用Evol-inst方法自主生成|| |KoAlpaca v1.1|19955|经过数据相似度检测、噪声去除等预处理修正|KoAlpaca/KoAlpaca_v1.1.jsonl at main · Beomi/KoAlpaca (github.com)| |Yitingxie|1300|对基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,简称RLHF)目标聊天机器人对话数据集进行翻译后使用|https://huggingface.co/datasets/yitingxie/rlhf-reward-datasets?row=97| |Naver SQuARe|1039|Naver偏见性数据集|https://github.com/naver-ai/korean-safety-benchmarks| |总计|26979||| 所有数据文件均存放于./raw/目录下。 # 贡献者 --- [JoJo0217](https://github.com/JoJo0217) [hap](https://github.com/chohabin) [moseoridev](https://github.com/moseoridev) [jangjunewoo](https://github.com/jangjunewoo) [Y8N](https://github.com/yeyoon4)
提供机构:
jojo0217
原始信息汇总

数据集概述

数据集来源与目的

  • 由성균관대 - VAIV COMPANY合作构建,旨在支持自然且符合伦理的聊天机器人开发。
  • 数据集主要关注日常对话,避免使用仇恨言论和偏见回答。

数据集构建过程

  • 大部分过程由人工直接审核,确保高质量。
  • 在生成和翻译等过程中使用了GPT3.5-turbo和GPT4技术。

数据集构成

数据种类 数量 备注 URL
日常对话数据集 2063 基于国立国语院的所有人的词汇库 国立国语院
情感对话 1020 AIHub情感对话数据 AIHub
仇恨言论 1126 AIHub伦理验证数据 AIHub
Evol-inst 476 采用Evol-inst方法直接生成 -
KoAlpaca v1.1 19955 经过数据相似度检查和噪音去除等修改 KoAlpaca
Yitingxie 1300 用于rlhf目的的聊天机器人对话数据,通过翻译使用 Hugging Face
네이버 SQuARe 1039 네이버偏见数据 Naver AI

数据存储位置

  • 数据文件存储在./raw/文件夹中。
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,构建高质量对话数据集是推动聊天机器人技术发展的关键。本数据集通过整合多个权威来源,包括国立国语院的日常对话语料、AIHub的情感对话与伦理验证数据,以及经过人工筛选的KoAlpaca和Evol-inst生成内容,确保了数据的多样性与可靠性。构建过程中,团队采用人工审核与GPT-3.5-turbo、GPT-4等先进模型辅助生成与翻译,严格避免偏见与仇恨言论,聚焦于日常对话的自然性与伦理性,最终形成了包含26,979条样本的综合性资源。
使用方法
在应用层面,本数据集适用于文本生成任务,特别是聊天机器人的训练与评估。用户可通过HuggingFace平台直接加载数据,利用其丰富的对话样本进行模型微调或基准测试。建议结合具体研究目标,筛选相关子集如日常对话或伦理验证部分,以优化模型在安全对话方面的表现。数据以原始文件形式提供,便于进一步预处理与分析,为自然语言处理领域的创新实践提供坚实支撑。
背景与挑战
背景概述
在人工智能伦理与自然语言处理交叉领域,安全对话数据集的构建成为推动负责任AI发展的关键。由成均馆大学与VAIV公司通过产学研合作,于近年联合创建的韩语安全对话数据集,旨在应对生成式AI在韩语语境下面临的伦理挑战。该数据集聚焦于构建自然且符合伦理的聊天机器人,核心研究问题在于如何平衡对话的自然流畅性与内容的安全性,避免仇恨言论与偏见性回应。通过整合多源高质量语料并引入人工审核与先进语言模型辅助处理,该工作为韩语AI伦理评估与安全对话生成提供了重要基准,显著提升了相关领域对文化敏感性对话建模的重视。
当前挑战
该数据集致力于解决韩语安全对话生成领域的核心挑战,即在保持对话自然性与多样性的同时,有效识别并规避仇恨言论、文化偏见及伦理风险,这要求模型具备深层的语境理解与文化敏感性。在构建过程中,挑战主要体现在多源异构数据的融合与质量控制上,包括从国立国语院、AIHub等机构获取的语料在格式、风格与标注标准上的不一致性需进行对齐;同时,依赖GPT-3.5/4等模型进行生成与翻译时,需克服其可能引入的隐性偏差,并通过大量人工审核确保数据可靠性,这一过程耗费显著资源且对标注者的文化素养提出较高要求。
常用场景
经典使用场景
在自然语言处理领域,构建安全、伦理的对话系统是当前研究的热点。该数据集聚焦于韩语日常对话,通过整合多种来源的对话数据,为开发自然且符合伦理的聊天机器人提供了关键资源。其经典使用场景在于训练和评估对话生成模型,确保模型在生成回复时能够避免偏见和仇恨言论,同时保持对话的自然流畅性。数据集涵盖了日常对话、情感对话及伦理验证数据,使得模型能够在多样化的语境中进行学习,提升对话系统的安全性和实用性。
解决学术问题
该数据集主要解决了对话系统中普遍存在的伦理和安全问题。在学术研究中,模型往往容易生成带有偏见或仇恨的回复,这限制了其在实际应用中的可靠性。通过提供经过人工审核的高质量韩语对话数据,该数据集帮助研究者训练模型识别和避免不当内容,从而推动对话生成技术向更负责任的方向发展。其意义在于为韩语自然语言处理社区提供了一个基准,促进了伦理人工智能的研究,并影响了后续安全对话数据集的构建标准。
实际应用
在实际应用中,该数据集被广泛用于开发韩语聊天机器人和虚拟助手。随着人工智能在客服、教育、娱乐等领域的普及,确保对话系统安全、无偏见至关重要。基于此数据集训练的模型能够应用于社交媒体平台、在线客服系统以及个人智能设备中,提供更加自然且符合伦理的交互体验。这不仅提升了用户满意度,还降低了因模型不当回复引发的社会风险,推动了人工智能技术在韩语市场的负责任部署。
数据集最近研究
最新研究方向
在自然语言处理领域,韩语安全对话数据集正成为推动伦理人工智能发展的关键资源。随着全球对AI伦理和偏见问题的关注日益增长,该数据集通过整合日常对话、情感表达和伦理验证数据,为构建自然且无偏见的韩语聊天机器人提供了重要基础。前沿研究聚焦于利用强化学习从人类反馈中优化模型,结合GPT系列生成技术,以提升对话的安全性和文化适应性。热点事件如AI伦理准则的制定,进一步凸显了此类数据集在减少仇恨言论和偏见回应方面的实际意义,促进了跨语言AI系统的公平与包容性发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作