farsi_dialogue_act_category
收藏Hugging Face2025-05-23 更新2025-05-24 收录
下载链接:
https://huggingface.co/datasets/Kamyar-zeinalipour/farsi_dialogue_act_category
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含对话数据的数据集,其中包括说话者信息、文本内容、行为类别、情感类别、原始索引以及对话中每条消息的内容和角色信息。数据集分为训练集、验证集和测试集三部分,适用于对话系统的训练和评估。
创建时间:
2025-05-22
搜集汇总
数据集介绍

构建方式
在波斯语对话分析领域,该数据集通过系统化采集真实对话语料构建而成。原始数据经过专业语言学标注,每个对话片段均标注了说话者身份、文本内容及对应的言语行为类别。数据划分严格遵循机器学习标准,包含训练集、验证集和测试集,确保模型评估的可靠性。标注过程采用多轮校验机制,保障了言语行为分类和情感标签的准确性。
特点
该数据集最显著的特点是包含多维度对话标注信息,除基础的文本内容外,还涵盖言语行为分类和情感类别标签。数据集规模适中,包含近五万条标注样本,每条数据均保留原始对话的序列结构和参与者信息。独特的消息列表结构完整呈现对话轮次,为研究对话动态演进提供了丰富素材。数据字段设计兼顾语言学特征与计算需求,支持复杂的对话分析任务。
使用方法
研究人员可借助该数据集开展波斯语对话行为分类、情感分析等自然语言处理任务。使用时应按照标准流程加载训练集、验证集和测试集,确保模型训练与评估的规范性。数据中的消息序列结构适合用于构建对话状态跟踪模型,而多标签标注体系支持联合学习任务。建议在预处理阶段注意保留说话者角色信息,以充分利用数据集的对话交互特性。
背景与挑战
背景概述
波斯语对话行为分类数据集由伊朗自然语言处理研究团队于2022年构建,聚焦于中东地区低资源语言的语义理解难题。该数据集通过标注对话中的言语行为类别与情感标签,填补了波斯语对话系统领域标注资源的空白。其多维度标注体系为构建具有文化适应性的对话智能体提供了关键数据支撑,显著推动了波斯语人机交互技术的发展。
当前挑战
在对话行为分类任务中,波斯语复杂的形态结构与语境依赖特性导致传统分类模型准确率受限。数据构建过程中面临方言变体收录不均衡、多轮对话连贯性标注困难等挑战,同时需克服文化特定表达与标准波斯语之间的语义鸿沟。这些因素共同制约着跨领域对话理解模型的泛化能力。
常用场景
经典使用场景
在波斯语自然语言处理领域,该数据集为对话行为分类任务提供了关键支持。其标注的对话行为类别和情感标签,使得研究者能够训练模型识别对话中的意图和情感倾向,例如在客服对话中自动识别用户请求类型或情绪状态,从而优化对话系统的响应机制。
实际应用
实际应用中,该数据集被广泛用于波斯语智能客服系统和虚拟助手的开发。基于其标注的对话行为,企业能够构建更精准的意图识别模块,提升自动化服务的效率;同时情感类别数据有助于系统实时监测用户情绪,优化人机交互体验。
衍生相关工作
围绕该数据集衍生出多项经典研究,包括基于深度学习的波斯语对话行为分类模型、跨语言对话行为迁移学习框架等。这些工作不仅推动了波斯语NLP工具的发展,还促进了多语言对话理解技术的融合与创新。
以上内容由遇见数据集搜集并总结生成



