extract-dialogue

github2024-01-28 更新2024-05-31 收录

下载链接：

https://github.com/KMnO4-zx/extract-dialogue

下载链接

链接失效反馈

官方服务：

资源简介：

本项目利用chatgpt从小说中提取对话集，提取的样本中包括角色和对话内容，以JSON格式存储。

This project utilizes ChatGPT to extract dialogue sets from novels. The extracted samples include characters and dialogue content, stored in JSON format.

创建时间：

2023-08-18

原始信息汇总

数据集概述

数据集名称

Extract Dialogue

数据集描述

本项目利用chatgpt从小说中提取对话集，提取的样本中包括role（角色）和dialogue（对话）。

数据集内容示例

json { "role": "艾伦", "dialogue": "不，不要提，这真是太倒霉了！我从楼梯上摔了下去，出现了较为严重的骨裂，只能打石膏做固定。" } { "role": "克莱恩", "dialogue": "真是不够走运啊。" }

数据集使用方法

克隆仓库：git clone https://github.com/KMnO4-zx/extract-dialogue.git
切换目录：cd extract-dialogue
安装依赖：pip install -r requirements.txt
创建.env文件：填入DEEPSEEK_API
放置小说或文本：放到当前目录，并在example.py中修改path
修改schema.py：建议结合要提取的小说修改schema示例
运行example.py：python example.py

数据集输出示例

json {"role": "克莱恩", "dialogue": "在帮警察们调查那起连环杀人案，虽然不一定能有收获，但赏金足够诱人，而且，和警察部门建立良好的关系对我们私家侦探来说非常重要。"} {"role": "塔利姆", "dialogue": "这果然是大侦探忙碌的事情。"} {"role": "塔利姆", "dialogue": "莫里亚蒂先生，我能请教一个问题吗？"} {"role": "克莱恩", "dialogue": "这单免费，还有，叫我夏洛克就行了。"} {"role": "塔利姆", "dialogue": "我有个朋友，爱上了不该爱的人，这种情况该怎么处理？"} {"role": "克莱恩", "dialogue": "我唯一的建议是，不要犯法。"} {"role": "克莱恩", "dialogue": "首先，我们要弄清楚‘不该’是源于什么？双方的家庭之间有仇恨关系？"} {"role": "塔利姆", "dialogue": "不，这不是《罗密欧与朱丽叶》的故事！"}

搜集汇总

数据集介绍

构建方式

extract-dialogue数据集的构建方式主要依赖于先进的自然语言处理技术，特别是通过使用`chatgpt`模型，从各类小说文本中自动提取对话内容。该过程首先通过预定义的`schema`结构，明确对话的角色和内容，随后利用`chatgpt`对小说文本进行解析，提取出符合格式的对话数据。这一方法不仅提高了数据集的构建效率，还确保了对话内容的准确性和一致性。

特点

extract-dialogue数据集的主要特点在于其高度结构化的对话数据，每条对话都明确标注了发言角色和具体内容，便于后续的分析和应用。此外，该数据集的多样性体现在其涵盖了多种小说类型和风格，从而为模型训练提供了丰富的语料资源。数据集的格式简洁明了，便于直接导入各类机器学习模型进行处理。

使用方法

使用extract-dialogue数据集时，用户首先需要克隆仓库并安装相关依赖，然后根据需求调整`schema.py`中的结构定义。接着，将目标小说文本放置在指定目录，并通过修改`example.py`中的路径参数来指定输入文件。运行脚本后，系统将自动提取对话并保存为JSONL格式，用户可直接读取这些文件进行进一步的分析或模型训练。

背景与挑战

背景概述

在自然语言处理与对话系统领域，构建高质量的对话数据集是推动模型泛化能力提升的关键。extract-dialogue数据集由KMnO4-zx团队创建，旨在从小说文本中提取结构化的对话数据，为Character AI等对话系统提供丰富的训练资源。该数据集的核心研究问题是如何从非结构化文本中高效、准确地提取角色与对话内容，并将其转化为可用于模型训练的格式。通过利用chatgpt等先进语言模型，extract-dialogue不仅为对话系统的泛化提供了新的数据源，还为小说文本的自动化处理开辟了新的研究方向。

当前挑战

extract-dialogue数据集在构建过程中面临多重挑战。首先，从小说文本中提取对话需要解决角色识别与对话边界划分的问题，这要求模型具备高精度的自然语言理解能力。其次，不同小说中的角色命名与对话风格各异，如何设计通用的提取规则以适应多样化的文本风格是一个技术难点。此外，数据集的构建还依赖于高质量的API接口与计算资源，如何在有限的资源下高效完成数据提取与处理也是一大挑战。最后，数据集的标注质量直接影响模型的训练效果，如何确保提取的对话数据准确且无歧义是构建过程中的关键问题。

常用场景

经典使用场景

extract-dialogue数据集的经典使用场景主要集中在自然语言处理领域，特别是对话系统的构建与优化。通过从小说中提取角色对话，该数据集为研究人员提供了丰富的多角色对话样本，适用于训练和评估对话生成模型、角色扮演系统以及情感分析等任务。这些对话样本不仅包含丰富的语言表达，还涵盖了多样化的情感和语境，为模型提供了真实的对话环境。

解决学术问题

该数据集解决了自然语言处理领域中对话系统训练数据稀缺的问题。传统的对话数据集往往局限于特定领域或单一角色，而extract-dialogue通过从小说中提取多角色对话，极大地丰富了对话数据的多样性和复杂性。这不仅有助于提升对话模型的泛化能力，还为研究情感计算、角色建模等提供了宝贵的资源，推动了相关领域的学术进展。

衍生相关工作

基于extract-dialogue数据集，研究者们开发了多种对话生成模型和情感分析工具。例如，有研究利用该数据集训练了基于Transformer的对话生成模型，显著提升了对话的连贯性和情感表达能力。此外，还有工作探索了如何利用该数据集进行角色建模，开发了能够模拟特定角色对话的AI系统。这些衍生工作不仅丰富了自然语言处理的研究内容，还为实际应用提供了技术支持。

以上内容由遇见数据集搜集并总结生成