KoSBi

Hugging Face2024-07-07 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/nayohan/KoSBi

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在通过提供多个人口统计和上下文相关的特征，如人口统计类别、人口统计组、上下文、上下文英文、句子、句子英文、上下文标签、上下文子标签、句子标签和句子子标签等，来减少大型语言模型应用中的社会偏见风险，确保安全性。数据集分为训练、验证和测试三个部分，分别包含54393、6799和6801个样本。数据集的语言为韩语，标签包括安全性。

创建时间：

2024-07-07

原始信息汇总

数据集概述

特征信息

demographic_category: 类型为字符串
demographic_group: 类型为字符串
context: 类型为字符串
context_en: 类型为字符串
sentence: 类型为字符串
sentence_en: 类型为字符串
context_label: 类型为字符串
context_sub_label: 类型为字符串
sentence_label: 类型为字符串
sentence_sub_label: 类型为字符串序列
annotated_demo: 列表类型，包含以下子项：
- demographic_category: 类型为字符串
- demographic_group: 类型为字符串序列

数据分割

train: 包含54393个样本，大小为23587249字节
valid: 包含6799个样本，大小为2956445字节
test: 包含6801个样本，大小为2965863字节

数据集大小

下载大小: 13335660字节
数据集大小: 29509557字节

配置

default: 数据文件路径如下：
- train: data/train-*
- valid: data/valid-*
- test: data/test-*

许可证

MIT

语言

ko（韩语）

KoSBi数据集的构建基于对韩语文本的深入分析，旨在缓解大型语言模型应用中的社会偏见风险。数据集通过收集和标注包含不同人口统计类别和群体的文本片段，确保覆盖多样化的社会背景。每个文本片段均经过人工标注，标注内容包括上下文、句子及其对应的标签，以确保数据的高质量和可靠性。

特点

KoSBi数据集的特点在于其丰富的标注信息，涵盖了人口统计类别、群体、上下文及句子标签等多个维度。数据集不仅提供了韩语原文，还包含对应的英文翻译，便于跨语言研究。此外，数据集通过细粒度的标签体系，能够有效支持社会偏见检测和缓解任务，为研究者提供了强有力的工具。

使用方法

KoSBi数据集的使用方法主要包括加载数据集、分析标注信息以及进行模型训练和评估。用户可以通过HuggingFace平台轻松访问数据集，并利用其提供的训练、验证和测试集进行实验。数据集的细粒度标签体系特别适合用于训练和评估社会偏见检测模型，帮助研究者开发更安全、更公平的语言模型应用。

背景与挑战

背景概述

KoSBi数据集由NAVER AI的研究团队于2023年推出，旨在解决大型语言模型在社会偏见风险方面的挑战。该数据集由Hwaran Lee等研究人员开发，专注于韩语语境下的社会偏见问题，涵盖了多种人口统计类别和群体。通过提供丰富的上下文和句子标注，KoSBi为研究者和开发者提供了一个基准，用于评估和减轻语言模型在生成内容时可能产生的偏见。该数据集的出现推动了自然语言处理领域在公平性和安全性方面的研究，特别是在韩语语境下的应用。

当前挑战

KoSBi数据集面临的挑战主要集中在两个方面。首先，社会偏见的多样性和复杂性使得数据标注和分类变得极为困难，尤其是在韩语这种高度依赖语境的语言中。其次，构建一个能够全面覆盖不同人口统计类别和群体的数据集，需要大量的时间和资源投入，以确保数据的代表性和平衡性。此外，如何在保持数据多样性的同时，避免引入新的偏见，也是数据集构建过程中需要克服的关键问题。这些挑战不仅影响了数据集的构建质量，也对后续模型训练和评估提出了更高的要求。

常用场景

经典使用场景

KoSBi数据集在自然语言处理领域中被广泛用于评估和减轻大型语言模型中的社会偏见风险。通过提供丰富的韩语文本数据，该数据集支持研究人员对模型在生成或处理文本时的偏见进行量化分析，特别是在涉及不同人口统计群体的语境中。

实际应用

在实际应用中，KoSBi数据集被用于训练和测试大型语言模型，以确保这些模型在生成或处理韩语文本时不会产生或加剧社会偏见。这对于开发面向韩语用户的AI应用尤为重要，如智能客服、内容推荐系统等，确保技术的公平性和包容性。

衍生相关工作

基于KoSBi数据集，多项研究工作得以展开，特别是在社会偏见检测和减轻领域。例如，研究人员开发了新的算法和模型，专门用于识别和修正语言模型中的偏见，这些工作不仅提升了模型的公平性，也为后续研究提供了宝贵的数据和方法论支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集