five

MinorBench

收藏
arXiv2025-03-13 更新2025-03-15 收录
下载链接:
https://huggingface.co/datasets/govtech/MinorBench
下载链接
链接失效反馈
官方服务:
资源简介:
MinorBench是一个开源的基准数据集,由新加坡政府科技局创建,旨在评估大型语言模型在拒绝儿童提出的不安全或不适当的查询方面的能力。该数据集的具体内容、大小等详细信息未在文中明确描述,但提及了它包含了儿童可能会向聊天机器人提出的问题,这些问题涉及危险行为、性内容、脏话、仇恨言论、自残和物质使用等风险类别。

MinorBench is an open-source benchmark dataset created by Singapore's Agency for Science, Technology and Research (A*STAR), designed to assess the ability of large language models (LLMs) to refuse unsafe or inappropriate queries raised by children. Detailed information such as the specific content and scale of this dataset is not explicitly specified in the source text, but it is noted that the dataset includes questions that children may ask chatbots, covering risk categories including dangerous behaviors, sexually explicit content, profanity, hate speech, self-harm, and substance use, among others.
提供机构:
新加坡政府科技局
创建时间:
2025-03-13
搜集汇总
数据集介绍
main_image_url
构建方式
MinorBench数据集的构建始于对现实世界案例的研究,其中包括对使用大型语言模型(LLM)聊天机器人的中学生的观察。研究人员收集了学生在使用聊天机器人时的聊天记录,并分析了他们提出的问题和聊天机器人的响应。基于这些数据,研究人员开发了一个新的内容风险分类法,用于描述儿童面临的具体风险。接着,他们手动创建了一个包含299个用户查询的数据集,这些查询反映了六个主要的风险类别:危险、性、亵渎、仇恨、自我伤害和物质使用。这些查询被设计为反映儿童可能会提出的问题,包括一些可能不安全或不适当的问题。最后,研究人员测试了六种不同的LLM,包括OpenAI的GPT-4o-mini、Google的Gemini 2.0 Flash、Anthropic的Claude 3.5 Haiku、Meta的Llama 3.3 70B以及DeepSeek的R1 Distilled,以评估它们对儿童不安全查询的拒绝或安全处理能力。
特点
MinorBench数据集的特点在于其专注于儿童使用LLM时面临的内容风险。该数据集包含了六个主要的风险类别,每个类别都有详细的定义、对儿童的具体风险以及用户提示和LLM响应的示例。此外,数据集还包括了四种不同的系统提示,用于测试LLM在拒绝或安全处理儿童不安全查询方面的表现。这些特点使得MinorBench成为一个非常有价值的工具,用于评估和改进LLM在儿童安全方面的性能。
使用方法
使用MinorBench数据集的方法包括评估LLM在处理儿童不安全查询方面的能力。研究人员可以使用数据集中的查询来测试LLM的拒绝率和安全响应率。此外,数据集中的系统提示可以用于测试不同的系统指令对LLM行为的影响。通过这些测试,研究人员可以识别LLM在儿童安全方面的弱点,并改进它们的安全性能。此外,MinorBench数据集还可以用于开发和测试新的内容过滤和风险检测机制,以确保LLM对儿童用户的安全和适宜性。
背景与挑战
背景概述
在大型语言模型(LLMs)迅速融入儿童生活的背景下,当前的人工智能伦理和安全研究未能充分解决未成年人特有的内容相关风险。MinorBench数据集旨在评估LLMs拒绝来自儿童的 unsafe 或不适当查询的能力。该数据集由新加坡政府科技局的研究人员创建,并在2025年ICLR儿童人工智能研讨会中被接受。MinorBench填补了现有研究的空白,通过实际案例研究揭示了LLMs在中学环境中被学生使用和误用的现象。该数据集为评估LLMs对儿童安全性的影响提供了一个新的分类法,并强调了针对儿童安全定制AI系统的紧迫性。
当前挑战
MinorBench数据集面临的主要挑战包括:1)构建过程中遇到的挑战,例如如何确保数据集的多样性和代表性,以涵盖所有潜在的内容风险类别;2)如何平衡对儿童的保护和信息的准确性,以确保LLMs能够准确拒绝不适当的查询,同时不会过度限制儿童获取有用信息的能力;3)如何应对儿童特有的风险场景,例如儿童可能询问的关于性、毒品、自我伤害等方面的敏感问题。此外,LLMs在处理儿童特有的风险场景方面表现不佳,这表明需要采取更多的措施来确保LLMs在回答儿童的问题时能够提供安全、适当和有帮助的回答。
常用场景
经典使用场景
MinorBench数据集主要被用于评估大型语言模型(LLMs)在拒绝或安全处理儿童不安全查询方面的能力。该数据集提供了一个新的分类体系,用以识别儿童与LLMs交互中的内容风险,并以此为基础,测试了六种主流LLMs在处理不同系统提示下的表现。研究结果表明,LLMs在处理儿童不安全内容方面存在显著差异,为更坚固、以儿童为中心的安全机制提供了实用步骤。
实际应用
MinorBench数据集的实际应用场景包括教育、心理健康和儿童保护等领域。在教育环境中,该数据集可用于评估LLMs在课堂学习中的安全性,确保儿童在与AI交互时不会接触到不适当的内容。在心理健康领域,该数据集可用于开发更安全的聊天机器人,为儿童提供情感支持,同时避免潜在的伤害。在儿童保护领域,该数据集可用于检测和预防儿童接触到不适当的内容,保护儿童的身心健康。
衍生相关工作
MinorBench数据集的衍生相关工作包括LLMs在儿童安全方面的改进和应用。该数据集的发布,促进了LLMs在儿童安全领域的进一步研究,推动了针对儿童特定风险的安全机制的改进。此外,MinorBench数据集也为开发更安全的聊天机器人和其他AI应用提供了参考和指导。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作