SQuARe-question

Hugging Face2024-07-07 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/nayohan/SQuARe-question

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个大型敏感问题和可接受响应的数据集，通过人机协作创建。它包含多个特征，如问题、英文问题、是否敏感、类别和原始注释。数据集分为训练、验证、测试和测试_ood四个部分，适用于安全相关的自然语言处理任务。

This is a large-scale dataset consisting of sensitive questions and their acceptable responses, constructed through human-machine collaboration. It includes multiple features such as the original question, its English equivalent, sensitivity label, category, and original annotations. The dataset is split into four subsets: training, validation, test, and test_ood, and is suitable for safety-related natural language processing tasks.

创建时间：

2024-07-07

原始信息汇总

数据集概述

特征信息

question: 类型为字符串。
question_en: 类型为字符串。
sensitive?: 类型为整数（int64）。
category: 类型为字符串。
raw_annotations: 结构化数据，包含以下字段：
- Q2: Subjective or Objective: 列表类型，包含以下字段：
  - subjective?: 类型为字符串。
  - workerID: 类型为整数（int64）。
- Q3: Sensitive or Non-sensitive: 列表类型，包含以下字段：
  - category: 类型为字符串。
  - workerID: 类型为整数（int64）。

数据分割

train: 包含37115个样本，总字节数为16237558。
valid: 包含6882个样本，总字节数为3114014。
test: 包含6945个样本，总字节数为3153147。
test_ood: 包含255个样本，总字节数为148855。

数据集大小

下载大小: 8411408字节。
数据集大小: 22653574字节。

配置信息

default: 包含以下数据文件路径：
- train: data/train-*
- valid: data/valid-*
- test: data/test-*
- test_ood: data/test_ood-*

许可证

MIT

语言

ko（韩语）

SQuARe-question数据集的构建基于人机协作的模式，通过大规模的人工标注与机器学习相结合的方式生成。数据集中包含了多种敏感性问题及其可接受的回答，标注过程由多名工作人员参与，确保了数据的多样性和准确性。数据集的结构化设计使得每个问题都附带了详细的元信息，如问题类别、敏感度标签等，并通过多轮标注和验证确保了数据的高质量。

特点

SQuARe-question数据集的特点在于其专注于敏感性问题及其可接受回答的多样性。数据集不仅包含韩语问题，还提供了对应的英文翻译，便于跨语言研究。每个问题都标注了敏感性和类别信息，并通过多轮人工验证确保了标签的可靠性。此外，数据集还提供了原始标注的详细信息，如标注者的ID和主观性判断，为研究者提供了丰富的分析维度。

使用方法

SQuARe-question数据集适用于自然语言处理领域的研究，特别是敏感性问题检测、回答生成和跨语言分析等任务。研究者可以通过加载数据集的训练、验证和测试集进行模型训练和评估。数据集的元信息如敏感性和类别标签可用于辅助模型优化和结果解释。此外，数据集的开放性和结构化设计使其易于与其他数据集或工具集成，支持更广泛的研究应用。

背景与挑战

背景概述

SQuARe-question数据集由NAVER AI团队于2023年发布，旨在解决敏感问题与可接受回答的识别与分类问题。该数据集通过人机协作的方式构建，涵盖了韩语中的敏感问题及其分类，涉及主观性与客观性、敏感性等维度。该数据集的发布为自然语言处理领域，特别是在韩语语境下的敏感内容检测与安全评估提供了重要资源。其研究成果已在第61届计算语言学协会年会上发表，标志着该领域在韩语语境下的进一步探索与突破。

当前挑战

SQuARe-question数据集在构建与应用中面临多重挑战。首先，敏感问题的界定具有高度主观性，不同文化背景和个体对敏感性的理解存在显著差异，这为数据标注的一致性带来了困难。其次，韩语的语言特性，如敬语系统与语境依赖性，增加了问题分类的复杂性。此外，数据集的构建依赖于人机协作，如何平衡自动化标注与人工审核的精度与效率，是另一大挑战。最后，数据集的泛化能力需进一步提升，以应对实际应用中的多样化场景与未知分布问题。

常用场景

经典使用场景

SQuARe-question数据集在自然语言处理领域中被广泛用于敏感问题的识别与分类研究。该数据集通过提供大量标注的敏感问题及其分类，为研究者提供了一个标准化的平台，用于训练和评估模型在识别敏感内容方面的性能。特别是在多语言环境下，该数据集支持韩语和英语的双语标注，使得跨语言敏感问题的研究成为可能。

解决学术问题

SQuARe-question数据集解决了自然语言处理中敏感内容识别的难题。通过提供详细的敏感问题分类和标注，该数据集帮助研究者开发出更为精确的敏感内容检测模型。这不仅提升了模型在识别敏感问题上的准确性，还为处理多语言环境下的敏感内容提供了新的研究视角，推动了跨语言敏感内容识别技术的发展。

衍生相关工作

基于SQuARe-question数据集，研究者们开发了多种敏感内容检测模型和算法。这些工作不仅提升了敏感内容识别的准确性，还推动了多语言敏感内容识别技术的发展。例如，一些研究利用该数据集开发了跨语言敏感内容检测模型，能够在不同语言环境下有效识别敏感问题，为全球范围内的内容审核提供了技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集