five

nayohan/SQuARe-question

收藏
Hugging Face2024-07-07 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/nayohan/SQuARe-question
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个大规模的敏感问题和可接受回答的数据集,通过人机协作创建。包含问题、英文问题、敏感性、类别和原始注释等特征。原始注释进一步细分为主观性或客观性以及敏感性或非敏感性,每个子特征都包含工人ID。数据集分为训练集、验证集、测试集和测试集外数据,每个部分都有具体的字节大小和示例数量。数据集的语言为韩语,标签为安全性,许可证为MIT。

This dataset is a large-scale collection of sensitive questions and acceptable responses, created through human-machine collaboration. It includes features such as questions, English questions, sensitivity, categories, and raw annotations. The raw annotations are further divided into subjective or objective and sensitive or non-sensitive, each with worker IDs. The dataset is divided into training, validation, test, and out-of-distribution test sets, each with specific byte sizes and example counts. The dataset is in Korean, tagged with safety, and licensed under MIT.
提供机构:
nayohan
原始信息汇总

数据集概述

数据集信息

  • 特征:

    • question: 类型为 string
    • question_en: 类型为 string
    • sensitive?: 类型为 int64
    • category: 类型为 string
    • raw_annotations: 结构化数据
      • Q2: Subjective or Objective:
        • subjective?: 类型为 string
        • workerID: 类型为 int64
      • Q3: Sensitive or Non-sensitive:
        • category: 类型为 string
        • workerID: 类型为 int64
  • 分割:

    • train: 包含 37115 个样本,大小为 16237558 字节
    • valid: 包含 6882 个样本,大小为 3114014 字节
    • test: 包含 6945 个样本,大小为 3153147 字节
    • test_ood: 包含 255 个样本,大小为 148855 字节
  • 下载大小: 8411408 字节

  • 数据集大小: 22653574 字节

配置

  • 默认配置:
    • train: 数据路径为 data/train-*
    • valid: 数据路径为 data/valid-*
    • test: 数据路径为 data/test-*
    • test_ood: 数据路径为 data/test_ood-*

其他信息

  • 许可证: MIT
  • 语言: 韩语 (ko)
  • 标签: 安全 (safety)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作