five

tmp_ds

收藏
Hugging Face2025-06-09 更新2025-06-10 收录
下载链接:
https://huggingface.co/datasets/kristaller486/tmp_ds
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含会话数据的训练集,每个会话包含内容、国家、IP哈希、请求头部、语言、是否编辑、角色、状态、时间戳、毒性标签等信息。同时还包括OpenAI和Detoxify的审核信息,以及会话的轮次和提示信息。
创建时间:
2025-06-04
搜集汇总
数据集介绍
main_image_url
构建方式
在对话系统研究领域,tmp_ds数据集通过收集真实用户与模型的交互对话构建而成。数据采集过程中记录了每轮对话的详细元数据,包括时间戳、用户地理位置和语言偏好,并采用哈希处理保护用户隐私。所有对话内容经过OpenAI和Detoxify双重审核机制,标注多维度毒性标签与风险评分,确保数据质量与安全性。
特点
该数据集涵盖87,127条多语言对话样本,深度融合了用户交互行为与内容安全元数据。其核心特征在于包含细粒度的毒性分类体系,覆盖骚扰、仇恨言论、自残倾向等18个风险维度,并配备概率评分机制。数据集同时整合用户端信息如设备类型与区域分布,为研究社交对话中的跨文化差异提供立体化视角。
使用方法
研究者可借助该数据集开展对话安全性检测与多语言内容审核研究,通过toxic字段快速筛选有害对话样本。开放的时间序列与地理标记支持跨区域对话行为分析,而双重审核标签体系允许比较不同检测算法的性能。建议优先利用conversation字段进行上下文建模,结合moderation评分开发智能过滤系统。
背景与挑战
背景概述
对话系统安全研究领域近年来备受关注,tmp_ds数据集作为该领域的重要资源,由国际研究团队于近期构建完成。该数据集聚焦于多语言对话场景中的内容安全检测问题,通过采集真实用户与AI模型的交互对话,并采用OpenAI和Detoxify双重审核机制对毒性内容进行标注。其核心研究在于识别对话中的仇恨言论、骚扰、暴力及自残等有害内容,为构建安全可靠的对话系统提供数据支撑,对促进人工智能伦理治理具有显著影响力。
当前挑战
该数据集主要应对多语言对话场景中有害内容识别的复杂性挑战,包括跨文化语境下毒性表达的差异性判定,以及细粒度内容分类的技术难题。在构建过程中面临用户隐私保护与数据可用性的平衡挑战,需通过哈希处理和字段脱敏等技术手段确保合规性;同时双重审核标注体系带来的标注一致性维护,以及多模态元数据(如用户代理、语言偏好)的整合处理,都增加了数据集构建的技术复杂度。
常用场景
经典使用场景
在对话系统安全评估领域,该数据集通过记录真实用户与AI模型的交互对话,为研究者提供了分析对话动态特征的宝贵资源。其多轮对话结构和丰富的元数据支持对话流程分析、用户行为建模以及系统响应质量评估,成为测试对话系统稳健性的标准基准。
实际应用
在实际应用层面,该数据集被广泛应用于商业对话系统的安全防护机制构建,帮助企业开发实时内容过滤系统。其跨国别、多语言的对话样本为全球化AI产品提供了本土化安全解决方案,显著降低了在线对话平台的有害内容传播风险。
衍生相关工作
基于该数据集衍生的经典工作包括多模态毒性检测框架、跨语言有害内容迁移学习模型,以及对话安全评估指标体系。这些研究不仅拓展了对话安全的技术边界,还催生了国际学术会议多个专题研讨会的设立,形成了持续发展的学术研究脉络。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作