five

数据堂335,000组东南亚语种多轮对话文本数据

收藏
魔搭社区2026-01-07 更新2025-02-22 收录
下载链接:
https://modelscope.cn/datasets/DatatangBeijing/335000SetsOfSoutheastAsianLanguageMulti-roundDialogTextData
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集内容为印尼语,马来语,泰语,越南语等东南亚语种的多轮对话文本数据,共计335000组。涉及类目广泛,涵盖社交、情感、金融、法律、科技等72个类别。对话内容丰富,平均每组对话有8个轮次,本数据集有助于模型自然语言理解、自然语言生成、对话策略等能力的提升。

This dataset contains multi-turn dialogue text data in Southeast Asian languages including Indonesian, Malay, Thai, Vietnamese and others, with a total of 335,000 dialogue groups. It covers 72 diverse categories such as social interaction, emotion, finance, law, technology and more. The dialogues are rich in content, with an average of 8 conversational turns per group. This dataset contributes to enhancing the capabilities of models in natural language understanding, natural language generation, dialogue strategy and other relevant aspects.
提供机构:
maas
创建时间:
2025-02-20
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含33.5万组东南亚语言(印尼语、马来语、泰语、越南语)的多轮对话文本,覆盖社交、情感、金融等72个类别,平均每轮对话8个回合。数据采用Jsonl格式,由DataTang版权所有并支持商业使用。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务