five

MegaChat

收藏
arXiv2025-11-29 更新2025-12-02 收录
下载链接:
https://github.com/MegaChat-Tech/MegaChat-DataSet
下载链接
链接失效反馈
官方服务:
资源简介:
MegaChat是由东方智能创新者机构创建的首个完全合成的波斯语问答数据集,专为评估基于Telegram的电子商务智能销售聊天机器人而设计。该数据集包含从48个活跃的波斯Telegram购物频道收集的帖子,通过创新的多智能体架构自动生成具有人物感知的问答对,确保了数据的真实性和多样性。其构建过程采用生成、验证和精炼的三阶段流水线,并利用GPT-5.1进行答案质量评估与地面真值选择。该数据集旨在为中小企业提供高效、低成本的解决方案,以构建专业商业领域的智能客户互动系统,推动低资源语言多语言对话AI的进步。
提供机构:
东方智能创新者
创建时间:
2025-11-29
原始信息汇总

MegaChat 数据集概述

数据集简介

MegaChat 是首个大规模、完全合成的波斯语数据集,专为在基于 Telegram 的电子商务环境中评估智能销售助手而设计。该数据集采用新颖的多智能体大语言模型架构生成,旨在弥补波斯语在对话式人工智能和销售聊天机器人开发领域的关键资源缺口。

关键特性

  • 完全合成生成:采用多智能体大语言模型架构,无需人工标注。
  • 基于角色的提问:反映不同客户画像的真实用户查询。
  • 多领域覆盖:涵盖 48 个 Telegram 频道,覆盖广泛的商品类别。
  • 真实答案:由 GPT-5.1 作为评判者评估的高质量回复。

数据集统计

指标 数值
Telegram 频道数量 48
采集的总帖子数 约 88,000
产品类别 涵盖广泛类别,包括时尚、电子产品、家居用品、美容及其他多样化的消费领域
生成的问答对数量 137 (来自5个频道)
语言 波斯语 (Farsi)
生成方法 完全合成 (LLM-Agent)

数据集构成与生成流程

数据收集流程

数据集通过三阶段流程构建:

  1. Telegram 频道数据收集:从 48 个活跃的 Telegram 购物频道收集了最近的 5,000 条帖子,并自动过滤已删除帖子和非文本内容。
  2. 多智能体问题生成:采用包含生成器、验证器和优化器的三智能体架构,生成反映真实用户动机、基于数据验证且具有对话自然性的波斯语问题。
  3. 答案生成与真实答案选择
    • 经典 RAG 系统:使用 FAISS 向量存储与 OpenAI text-embedding-3-large 进行 Top-5 检索,并采用 GPT-4.1、GPT-4o、GPT-4-turbo 三种大语言模型变体生成答案。
    • 智能体架构:包含查询扩展、并行检索与重排序、用户画像分析以实现个性化回复,以及大语言模型与小语言模型的协作。
    • 真实答案选择:由 GPT-5.1 作为评判者,根据事实正确性、角色一致性、情感敏感性、语气偏好、互动风格和内容偏好对所有候选答案进行评估和排序。

示例频道

频道 帖子数 问题数 领域
@LBASs2 3,148 22 男装与女装
@nemo_shopir 2,295 29 动漫与漫画产品
@bargiTak 1,779 33 个人与家用电子产品
@mahmoodikhanegi 1,375 31 家用电器与新娘用品
@lbasTak2 881 22 童装

数据下载

数据集分为两部分发布:

  1. Telegram 频道帖子 (原始数据):包含从 48 个 Telegram 购物频道收集的原始帖子。
    • 下载链接:https://drive.google.com/file/d/122c0JrHj_02TxuA9Az6P8Q5wTxtoLb6r
  2. 问答对:包含生成的问题及其真实答案和元数据。
    • 下载链接:https://drive.google.com/file/d/11ugxQgz_ln2WnXvGApiJahJm0Uw6DxFP

主要用途

  1. 销售聊天机器人训练:训练用于电子商务的波斯语对话式人工智能模型。
  2. RAG 系统评估:为检索增强生成系统提供基准测试。
  3. 基于角色的回复生成:开发适应用户的对话系统。
  4. 波斯语 NLP 研究:推动商业语境下的波斯语语言理解研究。
  5. 多智能体系统测试:评估用于对话生成的智能体架构。

引用信息

若在研究中使用 MegaChat 数据集,请引用以下论文: bibtex @article{MegaChat-DataSet, title={MegaChat: A Synthetic Persian Q&A Dataset for High-Quality Sales Chatbot Evaluation}, author={Rahmani, Mahdi and Saffari, AmirHossein and Rahmani, Reyhane}, journal={arXiv preprint arXiv:XXXX.XXXXX}, year={2025}, url={https://arxiv.org/abs/XXXX.XXXXX}, organization={Eastern Smart Innovators, Agentic AI Research Department} }

  • 论文链接 (待更新):https://arxiv.org/abs/XXXX.XXXXX
  • 论文链接:https://www.researchgate.net/publication/398084913_MegaChat_A_Synthetic_Persian_QA_Dataset_for_High-Quality_Sales_Chatbot_Evaluation

许可协议

  • 代码:本代码库遵循 MIT 许可证
  • 数据集:MegaChat 数据集遵循 知识共享署名 4.0 国际许可协议 (CC BY 4.0)。允许共享和改编,但必须提供适当的署名。
  • 完整许可条款:https://creativecommons.org/licenses/by/4.0/
搜集汇总
数据集介绍
main_image_url
构建方式
在波斯语电子商务对话系统研究领域,高质量数据集的稀缺性长期制约着智能销售聊天机器人的发展。MegaChat数据集通过创新的多智能体架构实现了全自动化构建,其流程始于从48个活跃的波斯语Telegram购物频道中采集最新帖子,并经过内容过滤与分类。随后,系统部署生成、验证与精炼三类智能体,在双轮处理框架中协同工作:首轮生成环节结合频道元数据与用户画像产生口语化问题;次轮则进行真实性核查与自然度优化,并依据置信度分数实施筛选,最终形成兼具多样性与真实性的问答对集合。
特点
该数据集的核心特征体现在其完全自动化与可扩展的生成范式,摒弃了传统方法依赖昂贵人工标注的局限,为低资源语言处理提供了高效解决方案。其独特之处在于深度融合了人物画像驱动的生成机制,模拟真实用户的语法习惯与输入特征,确保了对话情境的自然度与商业场景的贴合性。此外,数据集创新性地整合了多模型答案生成与大型语言模型评估体系,通过GPT-5.1依据事实准确性、人物对齐度等六维标准对候选答案进行排序,从而确立高质量的基准真值,这一设计显著提升了数据集的可靠性与实用性。
使用方法
MegaChat数据集主要服务于智能销售聊天机器人的训练与评估任务,尤其适用于波斯语电子商务场景下的对话系统开发。研究人员可借助其丰富的问答对进行模型微调,以提升聊天机器人在商品咨询、客户服务等环节的响应质量与个性化水平。同时,数据集内置的多智能体生成管道与评估框架为对比研究提供了理想平台,支持学者系统分析不同检索增强生成模型在低资源语言环境下的性能差异。企业用户则可直接利用该数据集构建面向Telegram平台的客户互动系统,实现低成本、高效率的商业化部署。
背景与挑战
背景概述
随着数字经济的蓬勃发展,中小型企业日益依赖即时通讯平台进行销售转化,其中基于人工智能的对话系统成为提升客户参与度的关键工具。然而,针对波斯语等低资源语言构建高质量的问答数据集面临显著挑战,传统人工标注方法成本高昂且难以规模化。在此背景下,东方智能创新者机构的研究团队于2025年推出了MegaChat数据集,这是首个面向波斯语销售场景的完全合成问答数据集。该数据集聚焦于Telegram电商平台的智能客服评估,通过创新的多智能体架构自动生成具有人物角色感知的对话数据,旨在为低资源语言环境下的商业对话系统提供可扩展的基准测试资源,推动多语言会话人工智能在专业领域的发展。
当前挑战
MegaChat数据集致力于解决销售对话系统中高质量数据稀缺的核心挑战,特别是在波斯语这类低资源语言环境下,构建能够精准评估智能客服性能的基准数据集面临双重困难。在领域问题层面,现有数据集往往缺乏对用户角色、情感倾向及商业场景特异性的细致刻画,导致训练的模型难以在真实电商对话中实现个性化响应与高效转化。在构建过程中,研究团队需要克服自动化生成与质量保障之间的平衡难题:既要确保合成问题符合波斯语口语习惯并包含自然错误,又要通过多轮验证机制防止信息失真;同时,答案生成系统需整合检索增强生成与人物角色对齐技术,在保证事实准确性的基础上实现对话风格的适应性调整,这对算法架构设计提出了极高要求。
常用场景
经典使用场景
在电子商务领域,特别是针对波斯语这类低资源语言,构建高质量的对话系统面临数据稀缺的挑战。MegaChat数据集通过自动化多智能体架构,从活跃的Telegram购物频道中生成合成问答对,为智能销售聊天机器人的评估提供了经典场景。该数据集模拟真实用户与商家之间的交互,涵盖服装、电子产品、家居用品等多个商品类别,支持对聊天机器人进行意图理解、个性化回复生成以及销售转化效率的测试,成为波斯语电商对话系统研发与优化的核心基准。
衍生相关工作
MegaChat数据集的推出衍生了一系列相关经典工作,尤其在多智能体数据生成与低资源语言处理领域。研究者在数据集基础上探索了更高效的检索增强生成架构,结合人物角色感知的对话建模方法,提升了聊天机器人的个性化响应能力。同时,该数据集激发了针对合成数据质量评估的新研究,如基于大语言模型的自动标注与偏差分析。在跨语言迁移学习中,MegaChat为波斯语与其他低资源语言的对话系统提供了可借鉴的生成范式,促进了多语言商业对话数据集的标准化建设。
数据集最近研究
最新研究方向
在低资源语言对话系统领域,MegaChat数据集的研究前沿聚焦于全自动多智能体架构驱动的合成数据生成范式。该范式通过生成器、验证器和精炼器智能体的协同,结合两阶段优化流程,实现了波斯语销售问答数据的高效构建,无需依赖昂贵的人工标注。研究热点在于利用大语言模型如GPT-5.1作为评估者,为候选答案建立地面真值,推动了检索增强生成技术与个性化对话评估的深度融合。这一进展不仅为中小企业提供了经济高效的聊天机器人解决方案,也为多语言商业对话人工智能的基准测试开辟了新路径,显著提升了低资源语言场景下数据生成的扩展性与质量可控性。
相关研究论文
  • 1
    MegaChat: A Synthetic Persian Q&A Dataset for High-Quality Sales Chatbot Evaluation东方智能创新者 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作