인권코퍼스

github2023-10-06 更新2024-05-31 收录

人权

自然语言处理

数据链接：

https://github.com/human-rights-corpus/HRC 数据链接链接失效反馈

官方服务：

资源简介：

构建用于交互生成模型的人权语料库，参考了韩国国家人权委员会的决定案例和咨询案例，通过文本修改和问答转换，利用GPT-3.5-turbo进行原子级学习后生成问答。

Constructing a human rights corpus for interactive generative models, referencing decision cases and consultation cases from the National Human Rights Commission of Korea. Through text modification and question-answer transformation, atomic-level learning was conducted using GPT-3.5-turbo to generate question-answer pairs.

创建时间：

2023-09-05

原始信息汇总

数据集概述

数据集名称

HRC: Building a human rights corpus for interactive generation models

数据集内容

该数据集包含以下几个部分：

参考数据：
- 参考韩国国家人权委员会的决定案例和咨询案例。
- 通过考虑前后文创建示例文本，并使用GPT-3.5-turbo进行一次性学习后生成问答。
数据结构：
- 数据结构包括：
  - source_copus: counsel.jsonl 和 decision.jsonl
  - humane_right_copus_v1.jsonl
数据示例：
- 提供了一个咨询案例的示例，展示了如何将原始咨询文档转换为自然语言的问答形式。
- 提供了一个决定案例的示例，展示了如何基于给定的请求、依据和结论创建新的法律相关问答。

数据集用途

该数据集旨在为交互式生成模型构建一个人权语料库，通过提供人权相关的问答数据，支持模型的训练和应用。

引用信息

作者：송영숙, 심상진, 김성현
标题：대화형 생성 모델을 위한 인권 코퍼스 구축
会议：한글 및 한국어 정보처리 학술대회
年份：2023
出版者：한글 및 한국어 정보처리 학회

搜集汇总

数据集介绍

构建方式

인권코퍼스는 대한민국 국가인권위원회의 결정례와 상담사례를 기반으로 구축되었으며, GPT-3.5-turbo 모델을 활용하여 문체 변경과 질의 응답 형태로 변환된 데이터를 포함합니다. 원본 데이터는 상담 및 결정례의 전후 맥락을 고려하여 예시문을 생성하고, 이를 통해 대화형 생성 모델의 학습에 적합한 데이터셋을 제공합니다.

特点

이 데이터셋은 인권 관련 상담 및 결정례를 질문과 답변 형태로 구조화하여 제공하며, 법적 맥락과 인권 보호의 원칙을 반영한 다양한 사례를 포함합니다. 특히, 상담례와 결정례를 각각의 프롬프트에 맞게 변환하여, 법률적 질문과 답변의 생성에 특화된 데이터셋으로 구성되어 있습니다. 이를 통해 법률 및 인권 분야의 대화형 AI 모델 학습에 유용한 리소스를 제공합니다.

使用方法

인권코퍼스는 상담례와 결정례를 각각의 프롬프트에 맞게 변환하여 사용할 수 있습니다. 상담례는 자연스러운 질문과 답변 형태로 변환되며, 결정례는 법률적 근거와 결론을 바탕으로 새로운 질문과 답변을 생성하는 데 활용됩니다. 데이터는 JSONL 형식으로 제공되며, 각 파일은 상담 및 결정례의 원본 데이터와 변환된 데이터를 포함하고 있어, 사용자는 이를 통해 대화형 생성 모델의 학습 및 평가에 활용할 수 있습니다.

背景与挑战

背景概述

인권코퍼스는 2023년 송영숙, 심상진, 김성현 등 연구자들에 의해 구축된 대화형 생성 모델을 위한 데이터셋이다. 이 데이터셋은 대한민국 국가인권위원회의 결정례와 상담사례를 기반으로 하며, 인권 관련 문체 변경과 질의 응답 생성을 목표로 한다. 특히, GPT-3.5-turbo 모델을 활용하여 원샷 학습을 통해 문답 데이터를 생성하였다. 이 데이터셋은 인권 분야의 자연어 처리 연구에 중요한 기여를 하며, 특히 법률 및 인권 관련 대화 시스템의 개발에 유용한 자료로 평가받고 있다.

当前挑战

인권코퍼스의 주요 도전 과제는 인권 관련 텍스트의 복잡성과 법률적 맥락의 정확한 이해에 있다. 첫째, 인권 및 법률 문서는 전문적인 용어와 복잡한 문법 구조를 포함하고 있어, 이를 자연스러운 질문과 답변으로 변환하는 과정에서 정확성과 일관성을 유지하는 것이 어렵다. 둘째, 데이터 구축 과정에서 원본 텍스트의 맥락을 유지하면서도 사용자 친화적인 형태로 변환하는 데 기술적 한계가 존재한다. 또한, 법률적 판단과 인권 보호의 균형을 맞추는 것이 중요한 과제로, 이는 모델의 학습과 적용 과정에서 지속적으로 고려되어야 한다.

常用场景

经典使用场景

인권코퍼스는 대화형 생성 모델을 위한 데이터셋으로, 특히 인권 관련 상담 및 결정례를 기반으로 한 질문-답변 쌍을 생성하는 데 주로 사용됩니다. 이 데이터셋은 인권 문제에 대한 법적 해석과 상담 사례를 자연스러운 대화 형태로 변환하여, 모델이 실제 상황에서의 응답 능력을 향상시키는 데 기여합니다.

实际应用

인권코퍼스는 법률 상담 서비스, 인권 교육 프로그램, 그리고 정부 및 비정부기구의 인권 보호 활동에서 활용될 수 있습니다. 이 데이터셋은 법적 상담을 자동화하거나, 인권 관련 교육 자료를 개발하는 데 유용하게 사용될 수 있으며, 이를 통해 일반인들이 법적 지식을 보다 쉽게 접근하고 이해할 수 있도록 돕습니다.

衍生相关工作

인권코퍼스를 기반으로 한 연구는 대화형 생성 모델의 성능을 평가하고 개선하는 데 초점을 맞추고 있습니다. 특히, 법적 문헌과 상담 사례를 활용한 질문-답변 생성 모델의 정확성과 자연스러움을 평가하는 연구가 활발히 진행되고 있으며, 이를 통해 법적 지식의 전달과 이해를 돕는 새로운 방법론이 개발되고 있습니다.

以上内容由遇见数据集搜集并总结生成