WildElder
收藏arXiv2025-10-10 更新2025-09-11 收录
下载链接:
https:
下载链接
链接失效反馈官方服务:
资源简介:
WildElder 是一个从网络视频中收集的中文老年人口语语料库,通过精细的人工标注丰富了数据集。该数据集结合了野外数据的多样性和现实性,以及专家手动标注和严格的质量检查的可靠性。每个语句都被标注了正字法转录、说话人年龄、性别和口音强度。数据集涵盖了广泛的通用主题,包括家庭和日常生活、自然和环境、科学和教育、历史和文化以及健康和疾病。WildElder 为自动语音识别和说话人分析的研究提供了强大的支持,并展示了老年人口语处理在现实世界中的挑战和潜力。
WildElder is a colloquial speech corpus of elderly Chinese speakers collected from online videos, enriched by meticulous manual annotations. This dataset integrates the diversity and realism of in-the-wild data with the reliability brought by expert manual annotations and strict quality checks. Each utterance in the corpus is annotated with orthographic transcription, the speaker’s age, gender, and accent intensity. It covers a wide range of general topics, including family and daily life, nature and the environment, science and education, history and culture, as well as health and diseases. WildElder provides robust support for research on automatic speech recognition and speaker analysis, and showcases the real-world challenges and potential of spoken language processing for elderly populations.
提供机构:
南开大学计算机学院
创建时间:
2025-10-10
搜集汇总
数据集介绍
构建方式
SafeToolBench的构建采用了系统化的数据收集流程,通过GPT-4o生成高质量的应用和API描述、风险用户指令及工具调用序列。首先从16个现实领域(如医疗、金融)中筛选常用应用,生成功能及API细节;随后基于单应用和多应用场景生成涵盖隐私泄露、财产损失等四类风险的对抗性指令;最后结合指令和工具描述生成对应的工具调用规划,并通过人工校验和风险评分(阈值≥7)确保数据质量,最终形成1200个高质量样本。
使用方法
SafeToolBench用于评估大语言模型在工具调用中的安全风险意识,用户可通过加载数据集指令和对应工具描述,测试模型识别潜在风险的能力。评估时需结合SafeInstructTool框架,从三大视角计算风险评分(如指令数据敏感性、工具操作影响范围等),若总分超过预设阈值(α=10)则判定为高风险操作。该基准支持对比实验,如与None、CoT等基线方法比较,以量化模型在复杂场景下的安全性能提升。
背景与挑战
背景概述
SafeToolBench由北京理工大学、香港中文大学、北京航空航天大学和百度联合研究团队于2025年提出,旨在解决大语言模型工具调用中的前瞻性安全评估问题。该数据集聚焦于工具学习场景下的安全风险识别,涵盖医疗、金融、社交媒体等16个现实领域,包含1,200个对抗性用户指令。其创新性在于从用户指令、工具本身及指令-工具联合三个维度构建九大安全评估维度,突破了传统回顾式评估的局限性,为构建安全可靠的AI代理系统提供了重要基准。
当前挑战
该数据集主要解决工具学习场景下的安全风险前瞻性识别挑战,包括隐私泄露、财产损失、人身伤害和偏见攻击四类核心风险。构建过程中面临三重挑战:一是需要模拟真实场景中不可逆的高风险操作(如资金转账);二是需协调多领域工具API的逻辑一致性;三是需确保对抗性指令在保持自然性的同时具备明确的风险特征。此外,还需解决多工具链调用时的风险传递和联合评估问题。
常用场景
经典使用场景
在大型语言模型工具学习领域,SafeToolBench作为前瞻性安全评估基准,主要用于模拟高风险工具调用场景。该数据集通过构建包含医疗、金融、社交媒体等16个现实领域的1200条对抗性指令,系统化测试模型在工具执行前的风险识别能力。典型应用场景包括评估模型对隐私泄露、财产损失、物理伤害和偏见攻击四类核心风险的敏感度,特别是在多工具协同调用场景中检验模型的安全防护机制。
解决学术问题
该数据集解决了工具学习领域的关键学术问题:传统回溯式评估无法应对不可逆工具操作的安全风险。通过建立前瞻性评估框架,填补了在工具实际执行前进行风险预测的方法空白。其创新性体现在从用户指令、工具本身和指令-工具联合三个维度构建九大安全评估指标,为研究社区提供了首个全面评估工具利用安全性的多维基准,推动了可信赖语言代理系统的理论发展。
实际应用
在实际应用层面,SafeToolBench为金融科技、医疗信息化和智能家居等领域提供安全验证标准。金融机构可基于该基准测试自动转账系统的风险控制能力,医疗机构能评估电子病历管理系统的隐私保护强度。智能家居厂商可通过模拟异常设备控制指令(如极端温度设置),检验家庭物联网系统的安全防护水平,有效防止因模型错误工具调用导致的物理伤害或财产损失事件。
数据集最近研究
最新研究方向
随着大语言模型在工具调用领域的广泛应用,SafeToolBench作为前瞻性安全评估基准,聚焦于工具利用过程中的潜在风险防范。该数据集涵盖医疗、金融等16个真实领域,针对隐私泄露、财产损失等四类核心风险构建了1200条对抗性指令,突破了传统回顾式评估的局限。前沿研究重点探索多维度风险感知框架,如SafeInstructTool通过用户指令、工具本身及指令-工具联合三个视角的九大维度,显著提升模型对敏感操作的前置识别能力。当前热点集中于跨域风险迁移、动态工具链安全验证等方向,其成果对构建可信赖的自主智能体系统具有重要实践意义。
相关研究论文
- 1SafeToolBench: Pioneering a Prospective Benchmark to Evaluating Tool Utilization Safety in LLMs北京理工大学,香港中文大学,北京航空航天大学,百度 · 2025年
以上内容由遇见数据集搜集并总结生成



