extract-dialogue
收藏github2024-01-28 更新2024-05-31 收录
下载链接:
https://github.com/KMnO4-zx/extract-dialogue
下载链接
链接失效反馈官方服务:
资源简介:
本项目利用chatgpt从小说中提取对话集,提取的样本中包括角色和对话内容,以JSON格式存储。
This project utilizes ChatGPT to extract dialogue sets from novels. The extracted samples include characters and dialogue content, stored in JSON format.
创建时间:
2023-08-18
原始信息汇总
数据集概述
数据集名称
- Extract Dialogue
数据集描述
- 本项目利用
chatgpt从小说中提取对话集,提取的样本中包括role(角色)和dialogue(对话)。
数据集内容示例
json { "role": "艾伦", "dialogue": "不,不要提,这真是太倒霉了!我从楼梯上摔了下去,出现了较为严重的骨裂,只能打石膏做固定。" } { "role": "克莱恩", "dialogue": "真是不够走运啊。" }
数据集使用方法
- 克隆仓库:
git clone https://github.com/KMnO4-zx/extract-dialogue.git - 切换目录:
cd extract-dialogue - 安装依赖:
pip install -r requirements.txt - 创建
.env文件:填入DEEPSEEK_API - 放置小说或文本:放到当前目录,并在
example.py中修改path - 修改
schema.py:建议结合要提取的小说修改schema示例 - 运行
example.py:python example.py
数据集输出示例
json {"role": "克莱恩", "dialogue": "在帮警察们调查那起连环杀人案,虽然不一定能有收获,但赏金足够诱人,而且,和警察部门建立良好的关系对我们私家侦探来说非常重要。"} {"role": "塔利姆", "dialogue": "这果然是大侦探忙碌的事情。"} {"role": "塔利姆", "dialogue": "莫里亚蒂先生,我能请教一个问题吗?"} {"role": "克莱恩", "dialogue": "这单免费,还有,叫我夏洛克就行了。"} {"role": "塔利姆", "dialogue": "我有个朋友,爱上了不该爱的人,这种情况该怎么处理?"} {"role": "克莱恩", "dialogue": "我唯一的建议是,不要犯法。"} {"role": "克莱恩", "dialogue": "首先,我们要弄清楚‘不该’是源于什么?双方的家庭之间有仇恨关系?"} {"role": "塔利姆", "dialogue": "不,这不是《罗密欧与朱丽叶》的故事!"}
搜集汇总
数据集介绍

构建方式
extract-dialogue数据集的构建方式主要依赖于先进的自然语言处理技术,特别是通过使用`chatgpt`模型,从各类小说文本中自动提取对话内容。该过程首先通过预定义的`schema`结构,明确对话的角色和内容,随后利用`chatgpt`对小说文本进行解析,提取出符合格式的对话数据。这一方法不仅提高了数据集的构建效率,还确保了对话内容的准确性和一致性。
特点
extract-dialogue数据集的主要特点在于其高度结构化的对话数据,每条对话都明确标注了发言角色和具体内容,便于后续的分析和应用。此外,该数据集的多样性体现在其涵盖了多种小说类型和风格,从而为模型训练提供了丰富的语料资源。数据集的格式简洁明了,便于直接导入各类机器学习模型进行处理。
使用方法
使用extract-dialogue数据集时,用户首先需要克隆仓库并安装相关依赖,然后根据需求调整`schema.py`中的结构定义。接着,将目标小说文本放置在指定目录,并通过修改`example.py`中的路径参数来指定输入文件。运行脚本后,系统将自动提取对话并保存为JSONL格式,用户可直接读取这些文件进行进一步的分析或模型训练。
背景与挑战
背景概述
在自然语言处理与对话系统领域,构建高质量的对话数据集是推动模型泛化能力提升的关键。extract-dialogue数据集由KMnO4-zx团队创建,旨在从小说文本中提取结构化的对话数据,为Character AI等对话系统提供丰富的训练资源。该数据集的核心研究问题是如何从非结构化文本中高效、准确地提取角色与对话内容,并将其转化为可用于模型训练的格式。通过利用chatgpt等先进语言模型,extract-dialogue不仅为对话系统的泛化提供了新的数据源,还为小说文本的自动化处理开辟了新的研究方向。
当前挑战
extract-dialogue数据集在构建过程中面临多重挑战。首先,从小说文本中提取对话需要解决角色识别与对话边界划分的问题,这要求模型具备高精度的自然语言理解能力。其次,不同小说中的角色命名与对话风格各异,如何设计通用的提取规则以适应多样化的文本风格是一个技术难点。此外,数据集的构建还依赖于高质量的API接口与计算资源,如何在有限的资源下高效完成数据提取与处理也是一大挑战。最后,数据集的标注质量直接影响模型的训练效果,如何确保提取的对话数据准确且无歧义是构建过程中的关键问题。
常用场景
经典使用场景
extract-dialogue数据集的经典使用场景主要集中在自然语言处理领域,特别是对话系统的构建与优化。通过从小说中提取角色对话,该数据集为研究人员提供了丰富的多角色对话样本,适用于训练和评估对话生成模型、角色扮演系统以及情感分析等任务。这些对话样本不仅包含丰富的语言表达,还涵盖了多样化的情感和语境,为模型提供了真实的对话环境。
解决学术问题
该数据集解决了自然语言处理领域中对话系统训练数据稀缺的问题。传统的对话数据集往往局限于特定领域或单一角色,而extract-dialogue通过从小说中提取多角色对话,极大地丰富了对话数据的多样性和复杂性。这不仅有助于提升对话模型的泛化能力,还为研究情感计算、角色建模等提供了宝贵的资源,推动了相关领域的学术进展。
衍生相关工作
基于extract-dialogue数据集,研究者们开发了多种对话生成模型和情感分析工具。例如,有研究利用该数据集训练了基于Transformer的对话生成模型,显著提升了对话的连贯性和情感表达能力。此外,还有工作探索了如何利用该数据集进行角色建模,开发了能够模拟特定角色对话的AI系统。这些衍生工作不仅丰富了自然语言处理的研究内容,还为实际应用提供了技术支持。
以上内容由遇见数据集搜集并总结生成



