do-not-answer-ja-creative-150

Hugging Face2025-03-25 更新2025-03-26 收录

下载链接：

https://huggingface.co/datasets/umiyuki/do-not-answer-ja-creative-150

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从do-not-answer-ja项目中抽取的，包含了5个与创造力相关的类别，每个类别大约有30个问题，总共150个问题。这些问题被设计为不直接回答，而是激发创作能力。数据集的字段包括问题内容、危害类型、风险领域、具体危害和唯一标识符。

创建时间：

2025-03-24

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，构建高质量的评估数据集对模型安全性能测试至关重要。该数据集源自kunishow维护的do-not-answer-ja项目，通过精心筛选创作能力维度下最具代表性的五个类别，每类抽取约30个样本，最终形成包含150条问答对的标准化集合。数据采集过程注重类别平衡与样本多样性，每条记录均包含问题文本及多维度标注信息。

特点

作为专注于日语场景的AI安全评估数据集，其显著特色在于针对创意性内容生成场景的系统性设计。每条数据包含问题文本及四种精细标注：危害类型、风险领域、具体危害描述和唯一标识符。数据覆盖多个风险维度，为测试模型在创意写作场景中的安全边界提供丰富素材。150个样本虽规模适中，但经过严格筛选，具有较高的代表性和评估价值。

使用方法

该数据集主要应用于日语大语言模型的安全性评估与调优。研究人员可加载标准化的训练集拆分，通过分析模型对各类创意性问题的响应，系统评估其内容过滤机制的效能。典型使用场景包括：测试模型对潜在有害创意内容的识别能力，分析不同类型风险领域的误判率，或作为安全对齐训练的补充数据。使用时需注意遵守CC-BY-NC-SA 4.0协议要求。

背景与挑战

背景概述

do-not-answer-ja-creative-150数据集源于日本研究者kunishow对do-not-answer-ja数据集的精选与重构，旨在探索人工智能生成内容中的伦理边界问题。该数据集创建于2023年，聚焦于语言模型在创造性任务中可能引发的潜在风险，如生成有害内容或违背伦理准则的文本。数据集从原始库中筛选了涉及创作能力的150个典型问题，覆盖5个核心风险领域，为研究语言模型的安全部署提供了重要基准。其构建受到Libr-AI团队开源项目的启发，体现了跨文化背景下AI伦理研究的国际合作趋势。

当前挑战

该数据集主要应对两大挑战：在领域问题层面，需解决语言模型创造性输出与伦理约束之间的平衡难题，特别是日语语境下文化敏感内容的识别与规避；在构建过程中，面临样本代表性的技术挑战，包括从原始数据中精准提取兼具创造性和风险性的问题，以及多维度标注体系的建立。数据集的细粒度分类要求对各类潜在危害进行准确定义，这需要语言学、伦理学与AI技术的跨学科协作。

常用场景

经典使用场景

在自然语言处理领域，do-not-answer-ja-creative-150数据集主要用于评估和提升生成式AI模型的安全性。该数据集特别关注日语环境下模型对潜在有害问题的响应能力，通过150个精心筛选的问题，覆盖了多种风险领域和具体危害类型。研究人员利用这些数据可以系统地测试模型在面临敏感话题时的表现，从而优化其安全机制。

解决学术问题

该数据集有效解决了生成式AI在日语语境中的安全对齐问题。通过标注问题类型、风险领域和具体危害，为研究者提供了量化模型风险的基准。在学术层面，它填补了非英语语言环境下AI安全研究的空白，推动了跨文化AI伦理研究的发展，为制定多语言AI安全标准提供了实证基础。

衍生相关工作

基于该数据集，研究者们开展了一系列关于多语言AI安全的前沿工作。其中最具代表性的是跨文化危害分类体系的建立，以及基于迁移学习的多语言安全过滤器开发。这些工作不仅扩展了原始数据集的应用范围，还为后续的非英语AI安全研究提供了方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集