five

SEADIALOGUES

收藏
arXiv2025-08-10 更新2025-08-13 收录
下载链接:
https://huggingface.co/datasets/SEACrowd/SEADialogues
下载链接
链接失效反馈
官方服务:
资源简介:
SEADIALOGUES是一个多语言、多轮对话数据集,涵盖了来自六个东南亚国家的八种语言:印度尼西亚语、爪哇语、马来语、米南加保语、他加禄语、泰米尔语、泰语和越南语。该数据集包含32000个对话,涵盖了超过100个文化相关的话题,每个对话都涉及多个话题。此外,该数据集还包括210个多样化的角色,以支持个性化的文化对话生成。

SEADIALOGUES is a multilingual, multi-turn dialogue dataset covering eight languages from six Southeast Asian countries: Indonesian, Javanese, Malay, Minangkabau, Tagalog, Tamil, Thai, and Vietnamese. This dataset contains 32,000 dialogues covering over 100 culture-related topics, with each dialogue involving multiple topics. In addition, the dataset includes 210 diverse characters to support personalized cultural dialogue generation.
提供机构:
MBZUAI, Mekari, Universitas Indonesia, Detik Network, AI Singapore, Chulalongkorn University, Capital One
创建时间:
2025-08-10
原始信息汇总

数据集概述:SEADialogues

基本信息

  • 许可证:CC BY-SA 4.0
  • 数据集大小:101,089,938 字节
  • 下载大小:38,042,400 字节
  • 训练集样本数:8,000 个

数据集特征

  • 语言(lang):字符串类型
  • 主题1(topic_1):字符串类型
  • 主题2(topic_2):字符串类型
  • 人物1名称(name_1):字符串类型
  • 人物1个性(personality_1):字符串类型
  • 人物1性别(gender_1):字符串类型
  • 人物1角色(persona_1):字符串类型
  • 人物2名称(name_2):字符串类型
  • 人物2个性(personality_2):字符串类型
  • 人物2性别(gender_2):字符串类型
  • 人物2角色(persona_2):字符串类型
  • 提示(prompt):字符串类型
  • GPT4oMini生成的对话(generated_convo_gpt4omini):字符串类型
  • Gemini15Flash生成的对话(generated_convo_gemini15flash):字符串类型
  • Aya生成的对话(generated_convo_aya):字符串类型
  • Llama31生成的对话(generated_convo_llama31):字符串类型

数据集结构

  • 训练集(train):
    • 路径:data/train-*
    • 字节数:101,089,938 字节
    • 样本数:8,000 个
搜集汇总
数据集介绍
main_image_url
构建方式
SEADIALOGUES数据集的构建采用了多阶段流水线方法,首先通过GPT-4.1mini模型生成300个场景模板和210个人物模板,并经过人工筛选确保质量。在词汇化阶段,研究人员手动填充文化相关实体(如地方食物、节日名称等)到模板的占位符中,同时通过JSON文件维护实体间的语义依赖关系。随后利用开源和商业大语言模型(如Llama-3.1、Gemini 1.5等)生成多轮对话,最后通过本土语言使用者进行五维度人工标注(流畅度、吸引力等),并辅以G-Eval等自动化评估工具进行质量验证。
特点
该数据集涵盖东南亚6国的8种语言(包括印尼语、爪哇语等低资源语言),包含32,000个对话和100个文化相关主题,每个对话平均13.86轮。其核心特色在于文化根植性设计——每个对话融合两种文化主题(如巴厘岛水稻梯田旅行或斋月市集讨论),并配备210个包含性格特质和地域特征的人物角色。数据统计显示,对话平均每轮包含21.69个单词,且通过TOP2VEC模型确保话题转换的自然性,有效解决了传统翻译数据集中文化实体失真的问题。
使用方法
使用该数据集时需注意其多模态评估框架:人工标注侧重对话质量(如文化相关性采用0-3分制),而自动化评估采用G-Eval等工具测量连贯性等指标。建议研究者按语言子集(如印尼语或泰语)分别加载数据,重点关注对话中[TRANSITION]标记处的主题转换逻辑。对于文化分析任务,可调用数据集提供的实体映射表(如[CEREMONY]与[FOOD]的对应关系),而对话生成研究则可利用人物模板中的性格特征(如'怀旧的[SONG_TYPE]爱好者')作为条件输入。
背景与挑战
背景概述
SEADIALOGUES是由Muhammad Dehan Al Kautsar等研究人员于2025年推出的多语言、文化根基深厚的多轮对话数据集,专注于东南亚地区的语言多样性。该数据集涵盖了来自六个东南亚国家的八种语言,包括印尼语、爪哇语、米南加保语、泰语、马来语、越南语、泰米尔语和他加禄语。SEADIALOGUES旨在解决现有对话数据集在文化敏感性方面的不足,通过引入人物属性和文化相关话题,增强对话的文化相关性和个性化。该数据集由MBZUAI、Mekari、Universitas Indonesia等机构合作开发,为文化感知和以人为中心的大型语言模型研究提供了重要资源。
当前挑战
SEADIALOGUES面临的挑战主要包括两个方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,该数据集旨在解决多语言和文化多样性对话生成中的文化敏感性不足问题,尤其是东南亚低资源语言的对话生成。构建过程中的挑战包括:1) 如何确保生成对话的文化准确性和多样性,避免文化刻板印象;2) 在低资源语言环境下获取高质量的标注数据;3) 处理多语言对话中的语言差异和文化差异;4) 确保多轮对话的连贯性和自然性。此外,数据集构建还需克服自动评估与人工评估之间的差距,特别是在文化相关性和流畅性等指标上。
常用场景
经典使用场景
SEADIALOGUES数据集在跨文化对话系统研究中具有重要应用价值,其多语言、多轮对话特性为探索东南亚地区文化多样性提供了丰富素材。该数据集最经典的使用场景是训练和评估具有文化敏感性的对话生成模型,研究人员可通过分析包含印尼语、爪哇语、泰语等8种语言的对话样本,深入理解不同文化背景下的语言表达差异。特别是在多轮对话生成任务中,该数据集能够有效模拟真实场景中话题的自然转换,为构建更人性化的对话系统奠定基础。
解决学术问题
SEADIALOGUES数据集有效解决了低资源语言对话系统研究中数据匮乏的核心问题。通过提供32,000条涵盖6个东南亚国家的多轮对话,该数据集填补了现有研究中文化敏感数据缺失的空白。其包含的210种人物角色和100个文化相关话题,为研究个性化对话生成、跨文化语境理解等前沿课题提供了实验基础。特别值得注意的是,该数据集通过人工标注和自动评估相结合的方式,为衡量模型的文化适应性建立了新的评估标准。
衍生相关工作
该数据集已衍生出多个经典研究方向,包括基于GPT-4等大语言模型的文化敏感对话生成、多语言对话系统的迁移学习等。相关研究工作如Kautsar等人提出的文化实体替换策略,以及Lin等人开展的跨文化个性化对话研究,都直接利用了SEADIALOGUES的数据资源。这些工作不仅验证了数据集的价值,还推动了对话系统在文化适应性方面的理论突破和技术创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作