WildChat-1M-thai-filtered

Hugging Face2025-04-21 更新2025-04-22 收录

下载链接：

https://huggingface.co/datasets/ping98k/WildChat-1M-thai-filtered

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了对话信息，每个对话包含多个回合，每个回合包括内容、国家、IP哈希、请求头信息、语言、是否编辑、角色、状态、毒性标签等。此外，还包含对话的轮次、语言、OpenAI审查和Detoxify审查的相关信息。数据集提供了一个训练集分割。

创建时间：

2025-04-18

原始信息汇总

WildChat-1M-thai-filtered 数据集概述

数据集基本信息

数据集名称: WildChat-1M-thai-filtered
下载大小: 5,540,787 字节
数据集大小: 3,152,456.001720786 字节
训练集样本数量: 386 个

数据集特征

主要特征

conversation_hash: 字符串类型，对话的唯一哈希值
model: 字符串类型，模型信息
timestamp: 时间戳类型（微秒级，UTC时区），记录时间
turn: 整型，对话轮次
language: 字符串类型，语言信息
toxic: 布尔型，是否包含有毒内容
redacted: 布尔型，是否经过编辑
state: 字符串类型，状态信息
country: 字符串类型，国家信息
hashed_ip: 字符串类型，IP地址的哈希值

对话特征（conversation）

content: 字符串类型，对话内容
country: 字符串类型，国家信息
hashed_ip: 字符串类型，IP地址的哈希值
header: 结构体，包含以下字段：
- accept-language: 字符串类型，接受的语言
- user-agent: 字符串类型，用户代理
language: 字符串类型，语言信息
redacted: 布尔型，是否经过编辑
role: 字符串类型，角色信息
state: 字符串类型，状态信息
timestamp: 时间戳类型（微秒级，UTC时区），记录时间
toxic: 布尔型，是否包含有毒内容
turn_identifier: 整型，对话轮次标识符

审核特征

OpenAI审核（openai_moderation）

categories: 结构体，包含多个布尔型字段，标识不同类别的内容审核结果
category_scores: 结构体，包含多个浮点型字段，标识不同类别的内容审核分数
flagged: 布尔型，是否被标记

Detoxify审核（detoxify_moderation）

identity_attack: 浮点型，身份攻击分数
insult: 浮点型，侮辱分数
obscene: 浮点型，淫秽分数
severe_toxicity: 浮点型，严重毒性分数
sexual_explicit: 浮点型，性明确分数
threat: 浮点型，威胁分数
toxicity: 浮点型，毒性分数

数据过滤方法

过滤代码: 使用泰文字符范围（0x0E00 至 0x0E7F）检测对话内容是否包含泰语
过滤函数:
- has_thai_char(text): 检测文本是否包含泰文字符
- contains_thai(conversation): 检测对话中是否包含泰语内容

搜集汇总

数据集介绍

构建方式

WildChat-1M-thai-filtered数据集通过精心设计的筛选机制构建而成，主要聚焦于泰语对话内容。该数据集从原始对话数据中提取包含泰文字符的对话，确保每条记录至少含有一个泰文字符。筛选过程采用Unicode编码范围检测技术，精准识别0x0E00至0x0E7F之间的泰文字符，从而保证数据的语言纯净性。数据记录包含丰富的元信息，如对话哈希值、时间戳、用户代理等，为后续分析提供多维度的研究基础。

特点

该数据集最显著的特点在于其语言特异性，专门针对泰语对话内容进行筛选和标注。每条对话记录均包含详细的结构化信息，包括角色标识、内容毒性标记、国家代码等关键字段。数据集采用双重内容审核机制，整合了OpenAI和Detoxify的毒性检测结果，为研究多语言环境下的对话安全提供可靠数据支持。对话记录的元数据完整性使得该数据集在跨文化对话分析领域具有独特价值。

使用方法

研究人员可通过HuggingFace平台直接加载该数据集，利用其丰富的结构化字段进行多维度分析。数据集特别适用于泰语自然语言处理任务，如对话系统开发、跨文化语言学研究等场景。毒性标注字段为内容安全研究提供便利，而详细的地理和语言元数据则支持区域化语言特征分析。使用时可重点关注conversation字段中的对话内容，结合toxic等标注信息开展针对性研究。

背景与挑战

背景概述

WildChat-1M-thai-filtered数据集聚焦于泰语自然语言处理领域，旨在为泰语对话系统提供丰富的训练资源。该数据集由匿名研究团队构建，收录了大量真实场景下的多轮对话，涵盖多样化的主题和语境。其核心研究问题在于解决低资源语言环境下对话模型的训练难题，通过过滤技术提取泰语文本，为泰语NLP社区提供了宝贵的语料库。该数据集的发布显著促进了东南亚语言人工智能研究的发展，尤其在跨文化对话理解和多语言模型微调方面具有重要价值。

当前挑战

该数据集面临双重挑战：在领域问题层面，泰语作为低资源语言存在标注标准不统一、方言变体复杂等问题，导致对话质量评估困难；在构建过程中，需处理非结构化用户生成内容的多语言混杂现象，精确识别泰文字符的算法需平衡召回率与准确率。此外，对话中的敏感内容识别涉及跨文化语境理解，现有毒性检测模型对泰语特定表达方式的适应性仍有待提升。数据匿名化处理与隐私保护的平衡也构成重要技术挑战。

常用场景

经典使用场景

WildChat-1M-thai-filtered数据集聚焦于泰语对话场景，其经典使用场景在于为泰语自然语言处理研究提供丰富的真实对话语料。该数据集通过过滤包含泰文字符的对话，为研究者提供了研究泰语语言特性、文化背景及交流模式的宝贵资源。在多语言对话系统开发领域，该数据集能够有效支持泰语对话模型的训练与评估。

衍生相关工作

围绕该数据集已衍生出多项重要研究，包括泰语BERT预训练模型优化、跨语言毒性迁移学习框架等突破性工作。其中基于该数据集构建的ThaiToxicityClassifier成为泰语内容审核的基准工具，相关成果发表在ACL等顶级会议，推动了东南亚语言AI研究的发展进程。

数据集最近研究