lihuowang

github2025-01-16 更新2025-01-18 收录

下载链接：

https://github.com/wangerzi/lihuowang

下载链接

链接失效反馈

官方服务：

资源简介：

源自小说《道诡异仙》，使用 DeepSeekv3 提取火子哥的对话数据集和世界观数据集。包含多个不同格式和用途的数据集，如Alpaca格式的DPO数据集、ShareGPT格式的章节摘要和细致问答数据集等。

Sourced from the Chinese novel *Daogui Yixian*, this dataset collection extracts dialogue datasets and worldview datasets of the character Huozige using DeepSeekv3. It includes multiple datasets with distinct formats and application scenarios, such as DPO datasets in Alpaca format, as well as chapter summary and detailed Q&A datasets formatted in ShareGPT format, among others.

创建时间：

2025-01-10

原始信息汇总

数据集概述

数据集来源

数据集源自小说《道诡异仙》，使用 DeepSeekv3 提取了火子哥的对话数据集和世界观数据集。

数据集内容

lihuowang-alpaca-dpo.json：使用 Alpaca 格式的 DPO 数据集，包含李火旺的疯言疯语回答和正常回答的对比。
daoguiyixian-sharegpt-summary-v2.json：ShareGPT 格式，章节摘要的 QA 第二版，优化了问题质量和回答准确性。
daoguiyixian-sharegpt-qa-v2.json：2W 条数据，ShareGPT 格式，针对章节内容的细致问答第二版，增加了更多细节问题和更准确的回答。
daoguiyixian-summary-v2.json：各章节的摘要总结第二版，优化了摘要的连贯性和关键事件的覆盖度。
daoguiyixian-sharegpt-summary.json：ShareGPT 格式，章节摘要的 QA。
daoguiyixian-sharegpt-qa.json：ShareGPT 格式，针对章节内容的细致问答。
lihuowang-sharegpt.json：ShareGPT 格式，经过清洗和整理的李火旺对话数据集，包含更规范的对话格式和更完整的对话内容。
daoguiyixian-summary.json：包含各章节的摘要总结，概括了每章的主要情节和关键事件。
lihuowang-sharegpt-origin.json：原始的李火旺对话数据集，包含李火旺与其他角色的对话片段，主要来自小说中的对话内容。

数据集进展

2025-01-14：基于 qwen2.5-7b-instruct 5e-5 学习率做两轮 DPO，可以学到疯狂火子哥说话风格，但缺少先验知识会有事实性错误。

数据清洗

连续对话需要合并同类项，保证基数为 human，偶数为 gpt。
如果第一个是 gpt 说的话，前面自动加招呼语 "火旺"、"说话"、"你还好吧" 等招呼语。
如果 gpt 中啥也没说，或者最后以 human 结尾，直接给 1 ~ 10 间的艹。
如果 gpt 啥也没说，移除掉会不会好点，不然说艹很容易过拟合，如果说话字数少于六个字，是不是也应该移除掉？

环境

初始化环境：conda env create -f environment.yml
持久化环境：conda env export --no-builds > environment.yml

注意事项

无授权，不可商用，仅供学习。

搜集汇总

数据集介绍

构建方式

lihuowang数据集的构建基于小说《道诡异仙》中的对话内容，通过DeepSeekv3技术提取了主要角色李火旺的对话片段及其世界观信息。数据集的构建过程包括对小说章节的详细分析，提取出对话内容并进行结构化处理，最终形成了多个格式的数据集，如Alpaca格式的DPO数据集和ShareGPT格式的QA数据集。此外，数据集还包含了章节摘要和细致问答，旨在提供更全面的信息覆盖。

特点

该数据集的特点在于其专注于小说《道诡异仙》中的对话和世界观，特别是李火旺这一角色的对话风格。数据集提供了多种格式的数据，包括对话对比、章节摘要和细致问答，这些数据经过优化以提高问答的准确性和连贯性。此外，数据集还特别关注了对话的自然性和角色的个性表达，使得数据集在模拟角色对话和情节理解方面具有较高的应用价值。

使用方法

lihuowang数据集的使用方法主要包括通过提供的多种格式数据进行模型训练和测试。用户可以下载不同格式的数据集，如Alpaca格式的DPO数据集或ShareGPT格式的QA数据集，用于训练对话生成模型或进行情节理解的研究。数据集的使用需要遵循特定的环境设置，包括使用conda环境进行初始化。此外，数据集的使用仅限于学习和研究目的，不可用于商业用途。

背景与挑战

背景概述

lihuowang数据集源自小说《道诡异仙》，由DeepSeekv3技术提取而成，主要包含小说中角色李火旺的对话和世界观数据。该数据集的创建旨在通过深度学习技术，捕捉和重现小说中的对话风格和世界观，为自然语言处理领域提供新的研究素材。数据集的核心研究问题在于如何有效地将小说中的复杂对话和世界观转化为机器可理解和处理的数据格式，进而用于训练和优化对话生成模型。该数据集对相关领域的影响力主要体现在其提供了一种新的方法来处理和利用文学文本数据，为文学分析和对话生成模型的研究提供了新的视角和工具。

当前挑战

lihuowang数据集面临的挑战主要集中在两个方面。首先，由于小说内容相对较少，难以支撑大规模的预训练，这限制了模型的深度学习和知识注入能力。其次，数据集的构建过程中遇到了数据清洗和格式化的难题，尤其是在处理李火旺的对话时，由于其对话内容较少且多为内心戏，直接使用原始对话数据训练出的模型表现呆板，缺乏故事背景的深度。此外，数据集的构建还需要解决如何在不引入过多噪声的情况下，将小说中的对话和世界观有效地转化为训练数据，这对数据清洗和预处理技术提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，lihuowang数据集主要用于训练和优化对话生成模型，特别是针对特定小说《道诡异仙》中的角色李火旺的对话风格。通过使用Alpaca格式的DPO数据集，研究者可以对比李火旺的疯言疯语与正常回答，从而深入理解角色性格和语言特点。

衍生相关工作

基于lihuowang数据集，研究者已经开发了多种模型和工具，如使用qwen2.5-7b-instruct模型进行DPO训练，以学习李火旺的说话风格。这些工作不仅推动了对话生成技术的发展，也为文学作品的数字化和智能化研究提供了新的视角和方法。

数据集最近研究