AnswerCarefully
收藏arXiv2025-06-03 更新2025-06-05 收录
下载链接:
https://llmc.nii.ac.jp/en/answercarefully-dataset/
下载链接
链接失效反馈官方服务:
资源简介:
AnswerCarefully数据集由日本国立情报学研究所开发,旨在提升日语LLM输出的安全性。数据集包含1800对问题及其参考答案,涉及广泛的风险类别,旨在通过人工收集和参考答案的提供,促进LLM的安全微调。数据集不仅有助于提高LLM回答问题的安全性,也方便了自动评估LLM输出安全性的准确性。该数据集为日语LLM的安全评估提供了基准,有助于解决日语LLM在文化背景下的安全性问题。
The AnswerCarefully dataset was developed by the National Institute of Informatics (NII), Japan, to enhance the safety of Japanese Large Language Models (LLMs). It contains 1,800 pairs of questions and their reference answers, covering a wide range of risk categories. The dataset aims to facilitate the safe fine-tuning of LLMs through manual data collection and the provision of reference answers. It not only helps improve the safety of LLMs' responses to questions but also enables accurate automatic evaluation of the safety of LLM outputs. Additionally, this dataset provides a benchmark for safety assessment of Japanese LLMs, assisting in addressing the safety issues faced by Japanese LLMs within their specific cultural context.
提供机构:
国立情报学研究所
创建时间:
2025-06-03
原始信息汇总
AnswerCarefully Dataset 概述
数据集基本信息
- 名称: AnswerCarefully Dataset (AC)
- 最新版本: Version 2.2 (ACv2.2) (发布于2025/5/29)
- 托管平台: Hugging Face
- 语言: 日语(含英语元标签)
- 数据规模:
- ACv1: 946对问答
- ACv2: 1,800对问答
- 用途: 提升日语及其他语言LLM输出的安全性与适当性
数据集特点
- 数据内容:
- 手动创建的日语问答对,涵盖日本社会/文化敏感话题
- 参考Do-Not-Answer数据集的安全分类体系,但样本为原创
- 包含安全参考回答(既安全又尽可能有帮助)
- 分类体系:
- 5个风险领域
- 12种危害类型
- 56个子类别(ACv2调整后)
- 版本更新:
- ACv2.2新增多语言文化适应元数据:
- 问题英文翻译
- 文化特异性标签(0-2级)
- 翻译注释
- 分类标签英文翻译
- ACv2.2新增多语言文化适应元数据:
数据分布
- ACv2数据划分:
- 测试集: 336样本(每个子类别6样本)
- 开发集: 1,464样本
使用条款
- 使用限制: 禁止重新分发
- 注意事项: 包含冒犯性/不安全内容,仅限LLM安全改进用途
- 引用格式:
Hisami Suzuki et al. "AnswerCarefully: A Dataset for Improving the Safety of Japanese LLM Output." 2025. https://arxiv.org/abs/2506.02372
开发信息
- 开发机构:
- ACv1: Riken AIP(Citadel AI协助)
- ACv2: 国立情报学研究所(LLMC)
- 联系方式: ac_dataset@nii.ac.jp
搜集汇总
数据集介绍

构建方式
AnswerCarefully数据集的构建采用了人工标注的方式,由专业标注人员手动创建了1,800对日文问题与参考回答。这些问题均需谨慎回答,覆盖了多种安全风险类别,包括歧视、隐私泄露、非法活动辅助等。与依赖GPT-4自动生成的现有数据集不同,该数据集通过人工标注确保了问题的自然性和文化适应性,同时避免了模型输出使用限制的问题。参考回答的加入进一步提升了数据集的实用性,使其不仅适用于安全评估,还可用于模型微调。
特点
AnswerCarefully数据集的特点在于其广泛的覆盖范围和文化的针对性。数据集基于Do-Not-Answer的三级风险分类体系,包含5个一级类别、12个二级类别和56个三级类别,全面涵盖了LLM可能面临的安全风险。特别值得一提的是,27%的数据样本包含了日本特有的文化内容,凸显了直接翻译英文安全数据集的不足。此外,数据集还提供了英文翻译和注释,便于跨语言和跨地区的研究与应用。
使用方法
AnswerCarefully数据集的使用方法多样,主要包括模型微调和安全评估。在微调方面,数据集可用于监督微调(SFT),实验证明其能显著降低模型的有害回答率,同时不影响一般问题的回答质量。在评估方面,数据集可作为基准测试工具,通过人工或自动评估(如LLM-as-a-judge)量化模型的安全性能。数据集的参考回答不仅提升了自动评估的准确性,还为敏感问题的回答提供了范例。此外,数据集的多语言注释为跨文化安全研究提供了便利。
背景与挑战
背景概述
AnswerCarefully数据集由日本国立情报学研究所(NII-LLMC)联合Retrieva公司、鹿儿岛大学等机构于2024年4月首次发布,旨在提升日语大语言模型(LLM)输出的安全性与文化适应性。该数据集包含1,800组需谨慎回答的问题-参考答案对,覆盖了基于英语Do-Not-Answer数据集定义的5大类61小类风险场景,并针对日本社会文化语境进行了本土化重构。作为首个全面覆盖日语LLM安全评估的基准,其创新性体现在人工构建的问题自然度、无使用限制的开放授权模式以及参考答案的指导价值,显著推动了日语LLM在伦理对齐方面的研究进展。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决日语LLM特有的文化敏感性风险(如地域性歧视、本土化禁忌等),同时平衡安全响应与实用性的矛盾;在构建过程中,人工标注需克服敏感问题参考答案编写的伦理困境,确保符合G7广岛AI进程准则。此外,数据规模较小(仅1,800样本)对模型泛化能力构成限制,且自动评估工具在日语语境下的可靠性验证仍需持续优化。
常用场景
经典使用场景
AnswerCarefully数据集在提升日语大语言模型(LLM)输出安全性方面展现了其经典应用价值。该数据集通过精心设计的1,800对问题与参考回答,覆盖了日本社会文化背景下的多种风险类别,为研究者提供了评估和优化模型安全性的重要工具。其独特之处在于人工标注的问题不仅自然且贴近实际应用场景,避免了自动生成数据可能带来的模板化问题,使得模型在应对敏感问题时能够更准确地把握文化差异和社会规范。
实际应用
在实际应用中,AnswerCarefully已被用于日本主流LLM的安全性能基准测试,涵盖包括GPT-4、Claude-3等12个模型的横向评估。其构建的5级安全评分体系(结合违规率与可接受回答率)被证明能有效区分不同模型的安全防护水平,为企业选型与合规审计提供量化支持。此外,数据集附带的参考回答方案可直接用于客服、教育等场景的AI系统优化,帮助规避法律风险与文化冲突。
衍生相关工作
该数据集推动了日语AI安全生态的发展,衍生出多项重要工作。例如LLM-jp团队基于其开展的172B参数模型安全微调实验(Katsumata et al., 2025),以及日本边界测试方法研究(Kurosawa et al., 2025)。其多语言多文化(mlmc)注释方案更启发了跨区域安全数据集构建范式,被AI Safety Institute International Network采纳为多语言安全标准的参考模板。
以上内容由遇见数据集搜集并总结生成



