lmsys-chat-1m-thai-filtered

Hugging Face2025-04-21 更新2025-04-22 收录

下载链接：

https://huggingface.co/datasets/ping98k/lmsys-chat-1m-thai-filtered

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个会话，每个会话包含对话轮次，每轮对话包括对话内容和角色信息。数据集还包含会话ID、使用的模型类型、对话轮数、语言类型以及OpenAI审核的多个分类及相应的分数，还有标记和编辑的标识。数据集分为训练集，并提供了检查对话内容中是否包含泰语字符的代码。

This dataset contains multiple dialogue sessions. Each session includes multiple dialogue turns, where each turn comprises dialogue content and role information. The dataset also provides conversation ID, the type of model used, number of dialogue turns, language type, multiple classification categories and their corresponding scores audited by OpenAI, as well as marking and editing identifiers. The dataset is divided into training sets, and code for checking whether the dialogue content contains Thai characters is provided.

创建时间：

2025-04-18

原始信息汇总

数据集概述

基本信息

数据集名称: ping98k/lmsys-chat-1m-thai-filtered
下载大小: 1,068,559 字节
数据集大小: 1,754,464.16448 字节
训练集样本数: 668 个

数据集特征

conversation_id: 字符串类型，表示对话的唯一标识符。
model: 字符串类型，表示生成对话的模型。
conversation: 列表类型，包含以下字段：
- content: 字符串类型，表示对话内容。
- role: 字符串类型，表示对话角色。
turn: int64类型，表示对话的轮次。
language: 字符串类型，表示对话语言。
openai_moderation: 列表类型，包含以下字段：
- categories: 结构体类型，包含多个布尔字段，表示对话内容的分类（如骚扰、仇恨、自残等）。
- category_scores: 结构体类型，包含多个浮点数字段，表示对话内容分类的得分。
- flagged: 布尔类型，表示对话内容是否被标记。
redacted: 布尔类型，表示对话内容是否被编辑。

数据筛选

使用泰文字符检测函数筛选数据：
- has_thai_char(text): 检测文本中是否包含泰文字符。
- contains_thai(conversation): 检测对话中是否包含泰文字符。

数据配置

默认配置:
- 训练集路径: data/train-*

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，多语言对话数据的收集与处理对于模型训练至关重要。lmsys-chat-1m-thai-filtered数据集通过筛选原始对话数据中至少包含一个泰文字符的对话构建而成。具体而言，采用Unicode编码范围检测技术（0x0E00至0x0E7F），对对话轮次中的文本内容进行字符级扫描，确保每个入选样本都具有真实的泰语语言特征。数据集同时整合了OpenAI的内容审核标签，为每段对话标注了11类敏感内容识别结果及其置信度评分。

使用方法

研究者可基于对话ID字段实现样本追踪，利用turn字段分析多轮对话特征。模型字段支持不同AI系统的输出对比研究，而语言标签则为泰语NLP任务提供数据支撑。内容审核相关字段可用于构建安全过滤模型或分析对话风险分布。使用前建议先根据redacted字段筛选合规数据，结合openai_moderation中的category_scores进行细粒度内容分析。数据加载可直接通过HuggingFace数据集库完成，注意处理可能存在的嵌套结构。

背景与挑战

背景概述

lmsys-chat-1m-thai-filtered数据集由LMSYS机构构建，旨在为泰语自然语言处理研究提供高质量的对话数据资源。该数据集基于大规模多轮对话数据，通过严格的泰语字符过滤机制筛选而成，反映了真实场景下泰语对话的多样性和复杂性。作为东南亚语言资源的重要组成部分，该数据集为低资源语言处理、跨文化对话系统评估等前沿研究方向提供了关键数据支持，弥补了泰语对话数据稀缺的现状。

当前挑战

该数据集面临的核心挑战主要体现在两方面：在领域问题层面，泰语作为低资源语言存在独特的语言特征和复杂的文化语境，对话系统需解决非拉丁字符处理、敬语体系建模等特殊难题；在构建过程中，数据清洗面临混合语言干扰、敏感内容识别等技术挑战，特别是需要平衡内容安全过滤与语言多样性保留之间的矛盾，确保数据质量的同时维持语言表征的完整性。

常用场景

经典使用场景

在自然语言处理领域，lmsys-chat-1m-thai-filtered数据集以其泰语对话内容为特色，为研究者提供了丰富的多轮对话样本。该数据集特别适用于对话系统的开发和评估，尤其是在泰语语境下的语言理解和生成任务中表现出色。通过分析对话中的角色转换和内容变化，研究者能够深入探索泰语的语言特性和文化背景。

解决学术问题

该数据集有效解决了泰语自然语言处理研究中数据稀缺的问题，为泰语对话系统的训练和评估提供了可靠的数据支持。其包含的多样化对话内容和详细的标注信息，使得研究者能够针对泰语的语言特点进行深入分析，从而推动泰语NLP技术的发展。此外，数据集中的内容审核标注也为研究网络言论的安全性和伦理问题提供了宝贵资源。

实际应用

在实际应用中，lmsys-chat-1m-thai-filtered数据集被广泛用于泰语智能客服系统的开发，帮助系统更好地理解和回应用户的泰语查询。同时，该数据集也为泰语教育技术提供了支持，例如开发泰语学习应用中的对话练习功能。其丰富的内容和高质量标注使其成为泰语NLP应用开发的重要基础。

数据集最近研究