nayohan/SQuARe-question
收藏Hugging Face2024-07-07 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/nayohan/SQuARe-question
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个大规模的敏感问题和可接受回答的数据集,通过人机协作创建。包含问题、英文问题、敏感性、类别和原始注释等特征。原始注释进一步细分为主观性或客观性以及敏感性或非敏感性,每个子特征都包含工人ID。数据集分为训练集、验证集、测试集和测试集外数据,每个部分都有具体的字节大小和示例数量。数据集的语言为韩语,标签为安全性,许可证为MIT。
This dataset is a large-scale collection of sensitive questions and acceptable responses, created through human-machine collaboration. It includes features such as questions, English questions, sensitivity, categories, and raw annotations. The raw annotations are further divided into subjective or objective and sensitive or non-sensitive, each with worker IDs. The dataset is divided into training, validation, test, and out-of-distribution test sets, each with specific byte sizes and example counts. The dataset is in Korean, tagged with safety, and licensed under MIT.
提供机构:
nayohan
原始信息汇总
数据集概述
数据集信息
-
特征:
question: 类型为stringquestion_en: 类型为stringsensitive?: 类型为int64category: 类型为stringraw_annotations: 结构化数据Q2: Subjective or Objective:subjective?: 类型为stringworkerID: 类型为int64
Q3: Sensitive or Non-sensitive:category: 类型为stringworkerID: 类型为int64
-
分割:
train: 包含 37115 个样本,大小为 16237558 字节valid: 包含 6882 个样本,大小为 3114014 字节test: 包含 6945 个样本,大小为 3153147 字节test_ood: 包含 255 个样本,大小为 148855 字节
-
下载大小: 8411408 字节
-
数据集大小: 22653574 字节
配置
- 默认配置:
train: 数据路径为data/train-*valid: 数据路径为data/valid-*test: 数据路径为data/test-*test_ood: 数据路径为data/test_ood-*
其他信息
- 许可证: MIT
- 语言: 韩语 (
ko) - 标签: 安全 (
safety)



