Safe-Child-LLM
收藏arXiv2025-06-17 更新2025-06-19 收录
下载链接:
https://github.com/The-Responsible-AI-Initiative/Safe_Child_LLM_Benchmark.git
下载链接
链接失效反馈官方服务:
资源简介:
Safe-Child-LLM是一个专门为评估大型语言模型(LLMs)在儿童和青少年交互中的安全性而设计的基准和数据集。该数据集包含200个对抗性提示,这些提示是从公开的红色团队语料库(如SG-Bench、HarmBench)中精心挑选和修改的,并带有人工标注的标签,用于评估越狱的成功率和一个标准化的0-5道德拒绝等级。该数据集旨在通过包含真实场景的提示,反映儿童(7-12岁)和青少年(13-17岁)在不同发展阶段的需求。为了促进透明度和协作推进伦理AI开发,Safe-Child-LLM的基准数据集和评估代码库已公开发布,供AI安全社区使用和改进。
Safe-Child-LLM is a benchmark and dataset specifically designed to evaluate the safety of large language models (LLMs) during interactions with children and adolescents. This dataset contains 200 adversarial prompts, which are carefully selected and modified from public red team corpora such as SG-Bench and HarmBench, with manually annotated labels for evaluating jailbreak success rates and a standardized 0-5 moral refusal rating. This dataset aims to reflect the needs of children (aged 7-12) and adolescents (aged 13-17) at different developmental stages by including prompts based on real-world scenarios. To promote transparency and facilitate collaborative progress in ethical AI development, the benchmark dataset and evaluation codebase of Safe-Child-LLM have been publicly released for the AI safety community to utilize and improve upon.
提供机构:
德克萨斯大学奥斯汀分校
创建时间:
2025-06-16
搜集汇总
数据集介绍

构建方式
Safe-Child-LLM数据集通过精心设计的对抗性提示构建,旨在评估大型语言模型(LLM)在儿童互动中的安全性。该数据集包含200个对抗性提示,分为7-12岁儿童和13-17岁青少年两个年龄段。提示来源于真实儿童行为研究、课堂互动观察以及公开的有害提示数据集(SG-Bench、HarmBench等),并经过人工标注,标记为越狱成功与否以及0-5分的道德拒绝等级。每个提示都经过严格筛选和改写,以确保其反映儿童可能真实提出的问题,涵盖从恶作剧到自残等不同风险等级的内容。
特点
Safe-Child-LLM数据集具有显著的年龄特异性,针对不同发育阶段的儿童设计了差异化内容。对于7-12岁儿童,重点关注欺凌、恶作剧等主题;对于13-17岁青少年,则涉及更复杂的心理健康、物质滥用等问题。数据集采用独特的0-5分行动标签分类法,不仅评估模型是否拒绝有害请求,还评估其拒绝方式的质量。此外,数据集强调现实性,避免使用极端或不可能由儿童提出的场景,确保评估结果具有实际指导意义。
使用方法
使用Safe-Child-LLM数据集时,研究人员可通过提供的开源代码库自动查询目标LLM的API接口。统一设置系统提示和解码参数确保评估一致性。每个模型响应都需经过人工评估,标注二元危害性指标(0/1)和行动分数(0-5)。评估结果包括模型输出、注释和元数据,以结构化格式存储便于分析。该框架支持对LLM行为进行系统性评估,识别模型在儿童互动场景中的弱点,并为开发更安全的儿童导向AI提供基准。数据集特别适用于评估模型在拒绝有害请求时的表现质量,而不仅仅是检测其是否产生有害输出。
背景与挑战
背景概述
Safe-Child-LLM是由德克萨斯大学奥斯汀分校城市信息实验室的Junfeng Jiao、Saleh Afroogh等研究人员于2024年提出的创新性基准数据集。该数据集旨在解决大型语言模型(LLMs)在儿童与青少年交互场景中的安全性评估问题,填补了现有AI安全评估主要关注成人用户的空白。数据集包含200个对抗性提示,覆盖7-12岁儿童和13-17岁青少年两个关键发展阶段,重点关注教育辅助、心理健康支持等场景中可能出现的伦理风险。作为首个针对未成年人开发的系统性LLM安全评估框架,该数据集通过人类标注的0-5级伦理拒绝量表和多维度行为分类,为儿童友好型AI的发展提供了重要基准。
当前挑战
Safe-Child-LLM面临的核心挑战体现在两个维度:领域问题方面,需解决LLMs在未成年人交互中特有的安全漏洞,包括对诱导自残、暴力内容等敏感话题的不当回应,以及模型对儿童认知特点的理解偏差;构建过程方面,存在对抗性提示的年龄适配性难题,需平衡真实儿童语言特征与伦理审查要求,同时开发兼顾安全性与教育性的多维度评估指标。特别值得注意的是,数据收集需规避对未成年人的潜在伤害,而标注体系必须捕捉模型回应中细微的伦理差异,这些都对研究团队提出了严格的跨学科要求。
常用场景
经典使用场景
在儿童与人工智能交互的安全评估领域,Safe-Child-LLM数据集通过构建200个对抗性提示词,系统化测试大型语言模型在7-12岁儿童和13-17岁青少年两个发展阶段的安全性表现。该数据集源自真实儿童行为研究和既有红队测试语料库,涵盖欺凌、情绪支持、危险行为诱导等典型场景,为模型在未成年群体中的伦理拒绝能力和风险规避机制提供标准化评估框架。
实际应用
在教育科技产品开发中,该数据集可优化儿童智能助手的风险响应协议,例如当未成年人查询自残方法或非法活动时,模型需生成包含明确道德劝阻的拒绝回答。临床心理学领域可借助其标注体系设计AI危机干预流程,而政策制定者则依据其评估结果建立分级的内容安全标准,推动形成行业统一的儿童AI守护准则。
衍生相关工作
基于该数据集的研究催生了多项儿童AI安全创新,包括IBM开发的年龄敏感型微调技术、MIT提出的课堂AI监管框架,以及受其启发的多模态安全评估工具ChildGuard-Vision。相关成果被纳入IEEE儿童AI伦理指南,并衍生出针对特殊需求儿童的适应性评估体系SAFE-Autism,形成跨学科的研究生态。
以上内容由遇见数据集搜集并总结生成



