tmp_ds

Hugging Face2025-06-09 更新2025-06-10 收录

下载链接：

https://huggingface.co/datasets/kristaller486/tmp_ds

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含会话数据的训练集，每个会话包含内容、国家、IP哈希、请求头部、语言、是否编辑、角色、状态、时间戳、毒性标签等信息。同时还包括OpenAI和Detoxify的审核信息，以及会话的轮次和提示信息。

创建时间：

2025-06-04

搜集汇总

数据集介绍

构建方式

在对话系统研究领域，tmp_ds数据集通过收集真实用户与模型的交互对话构建而成。数据采集过程中记录了每轮对话的详细元数据，包括时间戳、用户地理位置和语言偏好，并采用哈希处理保护用户隐私。所有对话内容经过OpenAI和Detoxify双重审核机制，标注多维度毒性标签与风险评分，确保数据质量与安全性。

特点

该数据集涵盖87,127条多语言对话样本，深度融合了用户交互行为与内容安全元数据。其核心特征在于包含细粒度的毒性分类体系，覆盖骚扰、仇恨言论、自残倾向等18个风险维度，并配备概率评分机制。数据集同时整合用户端信息如设备类型与区域分布，为研究社交对话中的跨文化差异提供立体化视角。

使用方法

研究者可借助该数据集开展对话安全性检测与多语言内容审核研究，通过toxic字段快速筛选有害对话样本。开放的时间序列与地理标记支持跨区域对话行为分析，而双重审核标签体系允许比较不同检测算法的性能。建议优先利用conversation字段进行上下文建模，结合moderation评分开发智能过滤系统。

背景与挑战

背景概述

对话系统安全研究领域近年来备受关注，tmp_ds数据集作为该领域的重要资源，由国际研究团队于近期构建完成。该数据集聚焦于多语言对话场景中的内容安全检测问题，通过采集真实用户与AI模型的交互对话，并采用OpenAI和Detoxify双重审核机制对毒性内容进行标注。其核心研究在于识别对话中的仇恨言论、骚扰、暴力及自残等有害内容，为构建安全可靠的对话系统提供数据支撑，对促进人工智能伦理治理具有显著影响力。

当前挑战

该数据集主要应对多语言对话场景中有害内容识别的复杂性挑战，包括跨文化语境下毒性表达的差异性判定，以及细粒度内容分类的技术难题。在构建过程中面临用户隐私保护与数据可用性的平衡挑战，需通过哈希处理和字段脱敏等技术手段确保合规性；同时双重审核标注体系带来的标注一致性维护，以及多模态元数据（如用户代理、语言偏好）的整合处理，都增加了数据集构建的技术复杂度。

常用场景

经典使用场景

在对话系统安全评估领域，该数据集通过记录真实用户与AI模型的交互对话，为研究者提供了分析对话动态特征的宝贵资源。其多轮对话结构和丰富的元数据支持对话流程分析、用户行为建模以及系统响应质量评估，成为测试对话系统稳健性的标准基准。

实际应用

在实际应用层面，该数据集被广泛应用于商业对话系统的安全防护机制构建，帮助企业开发实时内容过滤系统。其跨国别、多语言的对话样本为全球化AI产品提供了本土化安全解决方案，显著降低了在线对话平台的有害内容传播风险。

衍生相关工作

基于该数据集衍生的经典工作包括多模态毒性检测框架、跨语言有害内容迁移学习模型，以及对话安全评估指标体系。这些研究不仅拓展了对话安全的技术边界，还催生了国际学术会议多个专题研讨会的设立，形成了持续发展的学术研究脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集