CHAT_APP Multi-Modal Dataset

github2026-02-23 更新2026-02-26 收录

下载链接：

https://github.com/fortitudelucifer/Lens_opensource

下载链接

链接失效反馈

官方服务：

资源简介：

Lens是一个端到端的数据处理管道，将原始的CHATAPP聊天导出（文本、图像、语音消息、视频、贴纸、链接和文件）转换为结构化的、隐私安全的JSONL数据集，适用于大型语言模型的监督微调（SFT）。系统采用本地-云协同处理架构：在本地完成多模态信息解析和多维匿名化，然后发送到云端大型模型进行标注（也支持本地模型标注）。经过人类和代理审查的标注文件被去匿名化并返回到本地进行真实信息训练，最终实现与真实信息的本地对话。

Lens is an end-to-end data processing pipeline that converts raw CHATAPP chat exports (including text, images, voice messages, videos, stickers, links and files) into a structured, privacy-safe JSONL dataset tailored for supervised fine-tuning (SFT) of large language models. The system adopts a local-cloud collaborative processing architecture: multi-modal information parsing and multi-dimensional anonymization are completed locally, then the processed data is sent to cloud-based large models for annotation (local model annotation is also supported). Annotated files reviewed by humans and AI agents are deanonymized and returned to the local environment for real-world information training, ultimately enabling local conversations with authentic information.

创建时间：

2026-02-19

原始信息汇总

Lens_opensource 数据集概述

数据集基本信息

数据集名称: Lens_opensource — CHAT_APP Multi-Modal Dataset & Relationship Advisor Pipeline
核心目标: 将 CHAT_APP 聊天历史转换为高质量的多模态数据集，用于大型语言模型的监督微调，并集成了一个AI关系顾问系统。
许可证: Apache 2.0
编程语言: Python 3.10+
支持的操作系统: Ubuntu 24.04 x64, Windows 11 x64

核心能力与特点

本地-云端协同处理: 本地完成多模态信息解析和多维匿名化，然后发送到云端大模型进行标注（也支持本地模型标注）。经人和智能体审核后的标注文件进行去匿名化并返回本地，用于真实信息训练，最终实现与真实信息的本地对话。
多模态处理: 包含五个专用子管道，分别处理图像、语音、视频、贴纸以及链接/文件消息。
隐私优先设计: 采用两层匿名化（L1可逆/L2不可逆）和两阶段个人身份信息检测（规则引擎 + LLM验证）。
安全内容解析: 本地支持准确解析NSFW成人、暴力、跨文化和敏感内容，零数据泄露。
通用数据摄取: 基于插件的适配器架构，支持 CHAT_APP、Telegram、WhatsApp 的结构化文件以及通用 CSV/JSONL 导入。
智能分析: 跨所有模态的OCR路由、VLM字幕生成、ASR转录、情感检测和语义压缩。
专家模型路由: 内容感知的分诊系统，将NSFW、血腥和跨文化文档图像路由到专门的消隐/未审查模型。
关系顾问智能体: MoA（智能体混合）融合分析、QLoRA微调、混合RAG实时对话（包含3种智能体角色）。
Web仪表板: 使用 React + Vite 构建的前端，用于管道控制、实时聊天、人工审核、模型管理和检测。

数据处理流程架构

系统采用端到端的数据处理管道，将原始聊天数据转换为结构化、适合SFT的JSONL数据集。主要处理阶段如下：

阶段 -1: 标准化输入

多源数据输入: 支持 CHAT_APP HTML、Telegram JSON、WhatsApp TXT、CSV、JSONL。
适配器注册: 5个适配器自动发现。
摄取引擎: 执行模式验证、媒体分类、时间戳排序、导出生成。
输出: 生成标准模式的 P1_messages_raw.jsonl 文件和 raw/ 下的标准媒体目录。

阶段 1: 模态处理

图像: OCR + 字幕生成（300-800 tokens）。
语音: ASR + 情感分析（100-400 tokens）。
视频: 关键帧提取 + 转录（1500-2500 tokens）。
贴纸: 字幕生成 + OCR（50-200 tokens）。
链接/文件: 提取 + 文件摘要（20-200 tokens）。

阶段 2: 语义压缩

对各模态的详细描述进行压缩，显著减少token数量。

阶段 3: 合并与时间线

按 msg_uid 合并多模态数据，生成 enriched_full.jsonl。

阶段 4: 时间线后处理

消息合并与时间标记，生成 enriched_full_processed.jsonl。

阶段 5: L1/L2 分支

L1路径: 字段修剪，保留真实数据。
L2路径: PII检测与匿名化（两阶段高精度检测），然后进行字段修剪。

阶段 6: SFT优化

ID简化与时间压缩，生成用于本地训练的 agent_sft_l1.jsonl 和用于云端训练的 agent_sft_l2.jsonl。

阶段 7: 顾问对话提取

滑动窗口提取对话。

阶段 8: MoA多专家融合

DeepSeek、GLM、Kimi 三专家并行分析，Kimi K2.5 作为S4备用方案。

阶段 9: 去匿名化与训练

六层映射恢复进行去匿名化。
使用 Qwen3-8B + Unsloth 进行 QLoRA 训练。
输出 LoRA 权重至 advisor_out/models/。

阶段 10: RAG与在线服务

使用 BGE-M3 + Reranker 构建 FAISS 向量索引。
包含9个后端和3个智能体的在线聊天服务。
React 前端运行于 localhost:5173。

数据标准化管道

在进入多模态处理之前，系统通过通用摄取引擎将不同来源的聊天记录标准化为统一格式。

通用数据摄取

支持5种主流聊天数据源的统一接入：

来源类型	标识符	输入格式	适配器
CHAT_APP	`CHAT_APP_html`	HTML + CSV 导出文件	`CHAT_APPAdapter`
Telegram	`telegram_json`	JSON 导出文件	`TelegramAdapter`
WhatsApp	`whatsapp_txt`	TXT 导出文件	`WhatsAppAdapter`
通用 CSV	`generic_csv`	任意 CSV（需字段映射）	`GenericCSVAdapter`
通用 JSONL	`generic_jsonl`	任意 JSONL（需字段映射）	`GenericJSONLAdapter`

标准化模式

所有数据源最终被归一化为统一的 JSONL 格式，包含核心字段：

字段	类型	描述	示例
`ts`	int	Unix时间戳（秒）	1704067200
`speaker`	str	发送者标识符 (ME/OTHER)	"ME"
`type`	int	消息类型代码	1
`modality`	str	模态类型	"text/image/voice/video/sticker"
`text_raw`	str	原始文本内容	"Hello World"
`local_path`	str	本地文件路径	"./raw/image/img_001.jpg"

配置管理

通过 source_manifest.yaml 配置文件定义数据源和转换规则，包括源类型、输入文件路径、参与者映射、时区设置和媒体文件基础目录。

多模态处理管道详情

每个模态在 scripts/<modality>/run_all/ 下都有专用的子管道。所有管道遵循相同模式：提取 → 分析 → 压缩（可选）→ 合并 → 更新时间线。

图像管道（4步）

OCR: 智能路由（TEXT_HEAVY / PHOTO / HYBRID）+ PaddleOCR PP-OCRv4。
字幕生成: 分诊分类（NSFW/血腥/正常/跨文化/文档）→ 专家路由器分发到专用模型（Qwen2.5-VL-7B, MiniCPM-V 4.5 Abliterated, Pixtral 12B GGUF）。
压缩: 字幕的语义压缩（4-5倍比率）。
合并与更新时间线。

语音管道（4步）

ASR: FunASR（paraformer-zh + VAD + 标点），可选 Whisper 备用。
情感分析: 4阶段流程：SenseVoice快速检测 → 关键词分诊 → Qwen2-Audio深度分析 → 人工审核文件。情感分类包含6大类，20+细粒度标签。
压缩: 压缩冗长的情感分析，保留转录文本。
合并与更新时间线。

视频管道（5步）

提取: 使用光流运动检测 + 场景变化分析的自适应关键帧提取。
转录: 音频转录 + 情感检测（复用语音管道）。
字幕生成: 逐帧分诊 + 专家路由；拒绝时使用 LLaVA-NeXT-Video 备用。
压缩: 多帧描述压缩（10倍比率）。
合并与更新时间线。

贴纸管道（8步）

下载: 从URL下载贴纸，使用SHA256去重。
嗅探: Magic bytes格式检测（GIF/WebP/PNG/JPEG），Pillow解码验证。
处理: 动画/静态分类，自适应帧采样（4-16帧），生成联系表。
分诊: 逐帧NSFW/血腥检测，最大分数聚合，复用视频管道的分诊逻辑。
字幕生成: VLM描述，敏感内容使用专家路由。
压缩: 意图映射 + 字典压缩（对重复贴纸高达15倍）。
合并与更新时间线。
清理: 删除临时帧文件。

链接/文件管道（3步，仅需CPU）

提取与匿名化: 策略模式路由：引用/链接/文件/小程序/视频频道/聊天历史处理器。
摘要: 生成文件内容摘要。
合并与更新时间线。

共享实用工具

所有模态管道共享位于 scripts/_common/ 下的一组通用工具，用于处理横切关注点，例如包含多阶段流程的文本规范化管道，用于ASR后处理和跨模态文本清洗。

搜集汇总

数据集介绍

构建方式

在即时通讯数据处理的学术领域，CHAT_APP多模态数据集通过一套端到端的本地-云端协同处理架构构建而成。该架构首先利用通用摄取引擎，将来自CHAT_APP、Telegram、WhatsApp等多种来源的原始聊天记录（包括文本、图像、语音、视频、贴纸及文件）规范化至统一的JSONL格式。随后，数据进入五个独立的模态处理子管道，分别执行图像的光学字符识别与视觉语言模型描述、语音的自动语音识别与情感分析、视频的关键帧提取与转录、贴纸的意图映射以及链接文件的摘要生成。每个模态的处理结果经过语义压缩后，通过消息唯一标识符合并至统一的时间线中，并依据隐私保护需求进行可逆或不可逆的两级匿名化处理，最终生成适用于大语言模型监督微调的结构化数据集。

特点

该数据集的核心特征在于其多模态融合与隐私优先的设计理念。数据集完整保留了聊天记录中文本、图像、语音、视频、贴纸和链接文件的原始模态信息，并通过智能分析模块为每种模态生成了丰富的语义标注，例如图像描述、语音情感标签和视频内容摘要。其隐私保护机制尤为突出，采用了两阶段个人身份信息检测与两级匿名化策略，确保了数据在云端标注与本地训练流程中的安全性。此外，数据集构建流程具备卓越的通用性，通过插件式适配器架构支持多种数据源导入，并集成了针对敏感内容的本地化精准解析能力，实现了数据处理全流程的零数据泄露。

使用方法

该数据集主要服务于大语言模型的监督微调与智能对话代理系统的构建。研究人员或开发者可首先通过工作区初始化脚本，将原始聊天数据导入标准化的目录结构。随后，运行多模态处理管道，系统将自动完成各模态信息的解析、压缩与合并，生成包含丰富语义标注的增强时间线文件。根据训练环境的安全需求，用户可选择生成保留真实信息的L1数据集用于本地训练，或使用经过匿名化处理的L2数据集进行云端模型标注与微调。最终生成的标准化JSONL文件可直接用于模型训练。在此基础上，数据集还支撑了一个四层检索增强生成架构的关系顾问系统，该系统可通过网络前端进行实时交互，为对话分析与情感计算研究提供实践平台。

背景与挑战

背景概述

CHAT_APP多模态数据集由Lens开源项目团队于近期构建，旨在将CHAT_APP等即时通讯工具的聊天记录转化为高质量、结构化的多模态数据，以支持大型语言模型的监督式微调。该数据集的核心研究问题聚焦于如何从包含文本、图像、语音、视频、贴纸及文件链接的原始对话中，提取语义丰富且隐私安全的训练样本，从而推动面向个性化对话生成与关系咨询的智能体开发。其采用的本地-云端协同处理架构与多层匿名化设计，为多模态大模型在隐私敏感场景下的数据利用提供了创新性范式，对推动对话式人工智能在垂直领域的应用具有显著影响力。

当前挑战

该数据集致力于解决多模态对话理解与生成的复杂挑战，其核心问题在于如何从异构、非结构化的聊天历史中，精准解析并融合文本、视觉、听觉等多种模态的语义信息，以构建能够反映真实人际互动模式的训练数据。在构建过程中，团队面临多重技术挑战：一是多模态数据的对齐与融合，需确保不同模态信息在时间线与语义层面的一致性；二是隐私保护与数据效用间的平衡，要求设计可逆与不可逆的多层匿名化机制，并实现高精度个人身份信息检测；三是敏感内容（如成人、暴力、跨文化素材）的本地化解析，需建立专家模型路由系统以兼顾准确性与零数据泄露；四是处理海量媒体数据带来的计算与存储开销，需优化关键帧提取、语义压缩等流程以提升效率。

常用场景

经典使用场景

在大型语言模型（LLM）的监督式微调（SFT）领域，CHAT_APP多模态数据集扮演着关键角色。该数据集通过将原始聊天记录（涵盖文本、图像、语音、视频、表情包及文件）转化为结构化、隐私安全的JSONL格式，为模型训练提供了高质量的指令遵循数据。其经典应用场景在于，研究人员利用该数据集对LLM进行微调，以提升模型在复杂多轮对话、情感理解以及跨模态内容解析方面的能力，尤其在模拟真实人际交互的语境下，为生成式AI的对话系统优化提供了坚实的数据基础。

实际应用

超越纯学术研究，该数据集支撑的实际系统已部署于智能关系顾问场景。基于数据集训练的四层检索动态RAG全栈AI系统，能够通过网页前端与用户进行实时对话，提供情感支持、关系分析与沟通建议。这种应用将多模态对话理解能力转化为可落地的咨询服务，例如在心理健康辅助、社交技巧培训或客户服务模拟等领域，展示了从数据到实用产品的完整转化路径，体现了人工智能技术在提升人类社交福祉方面的潜在价值。

衍生相关工作

围绕该数据集衍生的经典工作集中体现在其集成的AI关系顾问管道上。该管道采用了混合专家（MoA）融合分析、QLoRA高效微调以及混合检索增强生成（Hybrid RAG）等先进技术，并训练出具备三种代理人格的对话模型。这些工作不仅验证了数据集在复杂代理系统构建中的有效性，也为后续研究如何在隐私约束下构建个性化、多模态的对话智能体提供了重要的技术蓝图和开源实现参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集