MegaChat

github2025-12-03 更新2025-12-18 收录

下载链接：

https://github.com/MegaChat-Tech/MegaChat-DataSet

下载链接

链接失效反馈

官方服务：

资源简介：

MegaChat是第一个大规模、完全合成的波斯数据集，专为评估基于Telegram的电子商务环境中的智能销售助手而设计。该数据集通过新颖的多代理LLM架构生成，解决了波斯语言资源在对话AI和销售聊天机器人开发中的关键缺口。

MegaChat is the first large-scale, fully synthetic Persian dataset designed specifically for evaluating intelligent sales assistants in Telegram-based e-commerce environments. Generated via a novel multi-agent LLM architecture, this dataset addresses the critical gap in Persian language resources for conversational AI and sales chatbot development.

创建时间：

2025-11-21

原始信息汇总

MegaChat 数据集概述

数据集基本信息

名称: MegaChat
描述: 首个大规模、完全合成的波斯语数据集，专为评估基于Telegram的电子商务环境中的智能销售助手而设计。采用新颖的多智能体LLM架构生成，旨在填补波斯语对话AI和销售聊天机器人开发领域的关键资源空白。
语言: 波斯语（Farsi）
许可证:
- 数据集: Creative Commons Attribution 4.0 International (CC BY 4.0)
- 代码仓库: MIT License

数据集规模与构成

Telegram频道数量: 48个
收集的总帖子数: 约88,000条
产品类别: 涵盖广泛类别，包括时尚、电子产品、家居用品、美容及其他多样化的消费领域。
生成的问答对数量: 137对（来自5个频道）
生成方法: 完全合成（LLM-Agent）

数据收集与生成流程

1. Telegram频道数据收集

从48个活跃的Telegram购物频道收集了最近发布的5,000条帖子。
自动过滤以删除已删除的帖子和非文本内容。
覆盖多样化的领域。

2. 多智能体问题生成

采用复杂的三智能体架构生成真实的波斯语问题：

生成器智能体: 创建符合人物角色、具有自然打字模式的问题。
验证器智能体: 根据源频道数据验证真实性。
优化器智能体: 增强对话自然度并过滤低置信度输出。

设计原则:

反映真实用户动机的人物角色驱动生成。
基于实际频道内容验证的数据驱动输出。
具有非正式语言和自然错误的对话真实性。

3. 答案生成与真实答案选择

两种并行的答案生成方法：

经典RAG系统:
- 使用FAISS向量存储和OpenAI text-embedding-3-large。
- 基于余弦相似度的Top-5检索。
- 三种LLM变体：GPT-4.1, GPT-4o, GPT-4-turbo。
智能体架构:
- 查询扩展。
- 并行检索与重排序。
- 用于个性化响应的用户画像分析。
- 用于提升效率的LLM-SLM协作。

真实答案选择:

使用GPT-5.1作为评判员评估所有候选答案。
基于以下维度进行排名：事实正确性、人物角色一致性、情感敏感性、语气偏好、互动风格、内容偏好。

示例频道

频道	帖子数	问题数	领域
@LBASs2	3,148	22	男装与女装
@nemo_shopir	2,295	29	动漫与漫画产品
@bargiTak	1,779	33	个人与家用电子产品
@mahmoodikhanegi	1,375	31	家用电器与新娘用品
@lbasTak2	881	22	童装

下载内容

数据集发布分为两部分：

Telegram频道帖子（原始数据）: 包含从48个Telegram购物频道收集的原始帖子。
- 下载链接: https://drive.google.com/file/d/122c0JrHj_02TxuA9Az6P8Q5wTxtoLb6r
问答对: 包含生成的问题及其真实答案和元数据。
- 下载链接: https://drive.google.com/file/d/11ugxQgz_ln2WnXvGApiJahJm0Uw6DxFP

主要用途

销售聊天机器人训练：训练用于电子商务的波斯语对话AI模型。
RAG系统评估：对检索增强生成系统进行基准测试。
基于人物角色的响应生成：开发用户自适应的对话系统。
波斯语NLP研究：推进商业语境下的波斯语语言理解。
多智能体系统测试：评估用于对话生成的智能体架构。

引用信息

如需在研究中使用MegaChat数据集，请引用以下论文：

论文标题: MegaChat: A Synthetic Persian Q&A Dataset for High-Quality Sales Chatbot Evaluation
作者: Rahmani, Mahdi and Saffari, AmirHossein and Rahmani, Reyhane
期刊: arXiv preprint arXiv:2511.23397
年份: 2025
论文链接: https://arxiv.org/abs/2511.23397
组织: Eastern Smart Innovators, Agentic AI Research Department

联系方式

作者: 未提供具体姓名
邮箱: Info@MegaChat.ir, MegaChat.Tech@gmail.com, Mahdi@MegaChat.ir, MahdiRahmani1375@gmail.com
组织: Eastern Smart Innovators (نوآوران هوشمندگستر شرق)
网站: [ESmartInnovators.ir], [MegaChat.ir] （注：README中为文本，非完整超链接）

搜集汇总

数据集介绍

构建方式

在波斯语智能销售助手评估领域，MegaChat数据集的构建采用了创新的多智能体大语言模型架构。其构建流程始于从48个活跃的Telegram购物频道中系统性地收集约88,000条帖子，并自动过滤非文本内容。随后，通过一个由生成器、验证器和精炼器智能体组成的协同架构，生成与多样化用户画像对齐的真实波斯语问题。最后，答案生成阶段融合了经典的检索增强生成系统与先进的智能体架构，并引入GPT-5.1作为评判者，从事实准确性、人物对齐等多个维度筛选出高质量的基准答案。

使用方法

该数据集为波斯语自然语言处理研究，特别是在电商对话系统领域，提供了关键资源。研究者可直接下载其公开的原始频道帖子数据与问答对数据，用于训练面向波斯语销售的对话AI模型。其核心应用场景包括作为基准，评估不同检索增强生成系统在波斯语环境下的性能；用于开发能够适应不同用户画像的个性化响应生成模型；以及测试多智能体架构在对话生成任务中的有效性。数据集遵循CC BY 4.0许可协议，允许广泛的学术与商业用途。

背景与挑战

背景概述

在波斯语自然语言处理领域，高质量对话数据集的稀缺长期制约着智能客服与销售助手系统的研发。为应对这一挑战，东方智能创新者机构的研究团队于2025年推出了MegaChat数据集，这是首个面向Telegram电商环境的大规模合成波斯语问答数据集。该数据集通过创新的多智能体大语言模型架构生成，旨在填补波斯语会话人工智能评估资源的空白，其核心研究问题聚焦于如何为波斯语销售聊天机器人提供可靠、多样且贴近真实场景的评估基准。MegaChat的出现，不仅推动了波斯语商业语境下的语言理解研究，也为多智能体系统与检索增强生成技术的评估提供了重要基础。

当前挑战

MegaChat数据集致力于解决波斯语电商销售聊天机器人评估这一领域问题，其首要挑战在于生成兼具真实性、多样性与商业相关性的高质量波斯语对话数据，以克服该语言资源匮乏的瓶颈。在构建过程中，研究团队面临多重技术挑战：如何设计有效的多智能体架构来模拟真实用户的提问模式与个性化特征；如何确保合成问题与从48个Telegram频道收集的原始帖子的内容紧密关联；以及如何利用先进的大语言模型作为评判者，从事实准确性、人物对齐、情感敏感性等多维度筛选出最优的基准答案，从而保证数据集的整体信度与效度。

常用场景

经典使用场景

在波斯语自然语言处理领域，高质量对话数据集的稀缺长期制约着智能销售助手的研发进程。MegaChat数据集通过其精心构建的合成问答对，为评估基于Telegram平台的电子商务聊天机器人提供了经典基准。研究者利用该数据集，能够系统性地测试模型在波斯语语境下的多轮对话理解、个性化响应生成以及商品信息检索能力，尤其在模拟真实用户与销售代理交互场景中展现出独特价值。

解决学术问题

该数据集有效解决了波斯语商业对话系统中缺乏标准化评估资源的学术困境。通过提供基于多智能体架构生成的合成数据，它使得研究者能够在不依赖昂贵人工标注的前提下，探究检索增强生成技术在低资源语言中的适应性。其意义在于建立了首个面向波斯语销售场景的对话质量评估框架，为跨语言信息检索、个性化对话建模以及合成数据可信度验证等研究方向提供了关键实验基础。

实际应用

在实际应用层面，MegaChat数据集可直接赋能波斯语地区的电子商务平台，用于训练和优化智能客服系统。企业能够基于该数据集构建具备多领域商品知识、适应用户画像的对话引擎，显著提升客户咨询响应效率与满意度。同时，其合成生成范式为其他低资源语言商业应用提供了可复制的技术路径，助力全球化企业实现本地化智能服务部署。

数据集最近研究