户晨风对话集

github2025-12-08 更新2025-12-10 收录

自然语言处理

口语对话

数据链接：

https://github.com/tinymindkin/huchenfeng 数据链接链接失效反馈

官方服务：

资源简介：

80,000+ 高质量对话对：目前最大规模的中文主播口语对话数据集。数据来源：从直播转录中提取 200 字以上的完整话语。AI 驱动清洗：借助 Gemini-2.0-Flash 自动清洗规范。智能问题生成：利用 Gemini-2.0-Flash-Lite 自动生成多样化提问。公开可下载：数据集开源，可支持学术研究与商业场景。

Over 80,000 high-quality dialogue pairs: Currently the largest-scale Chinese live streamer spoken dialogue dataset. Data Source: Complete utterances over 200 words extracted from live stream transcripts. AI-driven cleaning: Automatically cleaned and standardized with Gemini-2.0-Flash. Intelligent question generation: Diversified questions automatically generated using Gemini-2.0-Flash-Lite. Publicly Available: The dataset is open-source, supporting both academic research and commercial scenarios.

创建时间：

2025-12-01

原始信息汇总

户晨风大模型数据集概述

数据集基本信息

数据集名称：户晨风对话文本数据集
数据规模：80,000+ 高质量对话对
数据描述：目前最大规模的中文主播口语对话数据集
公开状态：开源，可支持学术研究与商业场景

数据来源与构成

数据来源：从主播“户晨风”2023-2024年的直播转录中提取
内容要求：提取200字以上的完整话语
原始语料：累计约200万字原始语料

数据处理流程

直播转录：使用 Whisper Large-v3 模型将直播音频转为文字。
数据清洗：
- 工具：借助 Gemini-2.0-Flash 自动清洗。
- 规范：
  - 过滤长度异常内容（<200字或>2000字）。
  - 过滤重复度 >60% 的内容。
  - 去除明显读评论与背景音乐描述。
  - 保留口语化风格，并保证核心观点清晰。
问题生成：
- 工具：利用 Gemini-2.0-Flash-Lite 自动生成多样化提问。
- 策略：为每段回答生成 3-5 个不同角度的问题，覆盖观点询问、经验请教、场景假设等类型。

数据处理成本

数据清洗成本：约 $42
问题生成成本：约 $18
总成本：约 $60

关联模型

微调基座模型：Qwen2.5-7B-Instruct
微调方法：基于 80K 样本中精选的 12K 高质量对话，使用 LoRA 进行微调。
训练效率：在单张 RTX 4090 上约需 7 小时完成训练。
效果提升：风格相似度指标从 42.3% 提升至 87.6%。

资源访问地址

模型下载：https://huggingface.co/alkintin/huchenfeng-model
数据集下载：https://huggingface.co/datasets/alkintin/huchenfeng-dataset

致谢

感谢项目 https://github.com/Olcmyk/HuChenFeng 在项目上的启发和原始数据支持。

搜集汇总

数据集介绍

构建方式

在构建户晨风对话集的过程中，采用了系统化的数据采集与处理流程。首先，通过Whisper Large-v3模型对户晨风2023至2024年间的直播音频进行转录，累积获取约200万字的原始语料。随后，借助Gemini-2.0-Flash模型执行自动化清洗，剔除长度异常、重复率过高以及非口语化内容，确保数据质量。最后，利用Gemini-2.0-Flash-Lite为每段回答生成多个角度的问题，形成完整的对话对，从而构建出包含超过80,000条高质量样本的数据集。

特点

该数据集以其规模与独特性在中文口语对话领域占据显著地位。作为目前最大规模的中文主播口语对话集合，它完整保留了户晨风直播中的口语化风格与情感表达。数据经过严格的AI驱动清洗，有效过滤了冗余与噪声，同时通过智能问题生成技术丰富了对话的多样性。数据集公开可用，为学术研究与商业应用提供了宝贵的资源，尤其在风格模仿与自然语言生成任务中展现出独特价值。

使用方法

使用户晨风对话集时，用户可通过Hugging Face平台直接下载数据集文件。对于模型训练，建议基于Qwen2.5-7B-Instruct等基座模型，采用LoRA等参数高效微调技术，在单张RTX 4090显卡上约7小时即可完成风格适配。推理阶段，运行提供的inference.py脚本即可体验生成效果。该数据集适用于对话系统开发、风格迁移研究以及个性化语言模型训练等多种场景。

背景与挑战

背景概述

在人工智能与自然语言处理领域，模仿特定人物的语言风格以构建个性化对话系统，已成为一项前沿研究方向。户晨风对话集于2024年由研究团队基于开源社区贡献创建，旨在捕捉网络主播户晨风独特的口语化表达风格。该数据集包含超过八万条高质量对话对，源自2023至2024年的直播转录文本，并利用先进的大语言模型进行自动化清洗与问题生成。其核心研究问题聚焦于如何精准复现个体语言特征，从而推动个性化人机交互技术的发展，为风格迁移与对话生成任务提供了宝贵的实证资源。

当前挑战

该数据集致力于解决个性化语言风格建模的挑战，即如何从非结构化的口语内容中提取并学习一致且生动的个人表达模式。在构建过程中，面临多重技术难题：原始直播音频的转录文本包含大量冗余、重复及背景描述，需通过智能过滤保留核心口语风格；同时，生成多样化且贴合上下文的问题以构建对话对，需平衡语义相关性与成本效率。此外，从海量数据中筛选高质量样本进行微调，确保模型既能捕捉风格细节又避免过拟合，亦是关键挑战。

常用场景

经典使用场景

在自然语言处理领域，特别是对话生成与风格迁移研究中，户晨风对话集以其大规模、高质量的中文口语对话数据，为语言模型的个性化风格微调提供了经典范例。该数据集常被用于训练或评估模型在模仿特定人物语言风格方面的能力，尤其是在捕捉口语化表达、情感倾向和语境适应性上，成为研究对话系统风格一致性与自然度的重要基准。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，包括基于LoRA和Unsloth框架的高效微调方案，以及利用Gemini模型进行数据清洗与问题生成的自动化流程。这些工作不仅优化了风格模仿模型的训练效率与效果，还推动了低成本、高质量对话数据构建方法的发展，为后续的个性化对话系统研究与开源社区贡献了重要技术路径。

数据集最近研究