five

extract-dialogue

收藏
github2024-01-28 更新2024-05-31 收录
下载链接:
https://github.com/KMnO4-zx/extract-dialogue
下载链接
链接失效反馈
官方服务:
资源简介:
本项目利用chatgpt从小说中提取对话集,提取的样本中包括角色和对话内容,以JSON格式存储。

This project utilizes ChatGPT to extract dialogue sets from novels. The extracted samples include characters and dialogue content, stored in JSON format.
创建时间:
2023-08-18
原始信息汇总

数据集概述

数据集名称

  • Extract Dialogue

数据集描述

  • 本项目利用chatgpt从小说中提取对话集,提取的样本中包括role(角色)和dialogue(对话)。

数据集内容示例

json { "role": "艾伦", "dialogue": "不,不要提,这真是太倒霉了!我从楼梯上摔了下去,出现了较为严重的骨裂,只能打石膏做固定。" } { "role": "克莱恩", "dialogue": "真是不够走运啊。" }

数据集使用方法

  1. 克隆仓库git clone https://github.com/KMnO4-zx/extract-dialogue.git
  2. 切换目录cd extract-dialogue
  3. 安装依赖pip install -r requirements.txt
  4. 创建.env文件:填入DEEPSEEK_API
  5. 放置小说或文本:放到当前目录,并在example.py中修改path
  6. 修改schema.py:建议结合要提取的小说修改schema示例
  7. 运行example.pypython example.py

数据集输出示例

json {"role": "克莱恩", "dialogue": "在帮警察们调查那起连环杀人案,虽然不一定能有收获,但赏金足够诱人,而且,和警察部门建立良好的关系对我们私家侦探来说非常重要。"} {"role": "塔利姆", "dialogue": "这果然是大侦探忙碌的事情。"} {"role": "塔利姆", "dialogue": "莫里亚蒂先生,我能请教一个问题吗?"} {"role": "克莱恩", "dialogue": "这单免费,还有,叫我夏洛克就行了。"} {"role": "塔利姆", "dialogue": "我有个朋友,爱上了不该爱的人,这种情况该怎么处理?"} {"role": "克莱恩", "dialogue": "我唯一的建议是,不要犯法。"} {"role": "克莱恩", "dialogue": "首先,我们要弄清楚‘不该’是源于什么?双方的家庭之间有仇恨关系?"} {"role": "塔利姆", "dialogue": "不,这不是《罗密欧与朱丽叶》的故事!"}

搜集汇总
数据集介绍
main_image_url
构建方式
extract-dialogue数据集的构建方式主要依赖于先进的自然语言处理技术,特别是通过使用`chatgpt`模型,从各类小说文本中自动提取对话内容。该过程首先通过预定义的`schema`结构,明确对话的角色和内容,随后利用`chatgpt`对小说文本进行解析,提取出符合格式的对话数据。这一方法不仅提高了数据集的构建效率,还确保了对话内容的准确性和一致性。
特点
extract-dialogue数据集的主要特点在于其高度结构化的对话数据,每条对话都明确标注了发言角色和具体内容,便于后续的分析和应用。此外,该数据集的多样性体现在其涵盖了多种小说类型和风格,从而为模型训练提供了丰富的语料资源。数据集的格式简洁明了,便于直接导入各类机器学习模型进行处理。
使用方法
使用extract-dialogue数据集时,用户首先需要克隆仓库并安装相关依赖,然后根据需求调整`schema.py`中的结构定义。接着,将目标小说文本放置在指定目录,并通过修改`example.py`中的路径参数来指定输入文件。运行脚本后,系统将自动提取对话并保存为JSONL格式,用户可直接读取这些文件进行进一步的分析或模型训练。
背景与挑战
背景概述
在自然语言处理与对话系统领域,构建高质量的对话数据集是推动模型泛化能力提升的关键。extract-dialogue数据集由KMnO4-zx团队创建,旨在从小说文本中提取结构化的对话数据,为Character AI等对话系统提供丰富的训练资源。该数据集的核心研究问题是如何从非结构化文本中高效、准确地提取角色与对话内容,并将其转化为可用于模型训练的格式。通过利用chatgpt等先进语言模型,extract-dialogue不仅为对话系统的泛化提供了新的数据源,还为小说文本的自动化处理开辟了新的研究方向。
当前挑战
extract-dialogue数据集在构建过程中面临多重挑战。首先,从小说文本中提取对话需要解决角色识别与对话边界划分的问题,这要求模型具备高精度的自然语言理解能力。其次,不同小说中的角色命名与对话风格各异,如何设计通用的提取规则以适应多样化的文本风格是一个技术难点。此外,数据集的构建还依赖于高质量的API接口与计算资源,如何在有限的资源下高效完成数据提取与处理也是一大挑战。最后,数据集的标注质量直接影响模型的训练效果,如何确保提取的对话数据准确且无歧义是构建过程中的关键问题。
常用场景
经典使用场景
extract-dialogue数据集的经典使用场景主要集中在自然语言处理领域,特别是对话系统的构建与优化。通过从小说中提取角色对话,该数据集为研究人员提供了丰富的多角色对话样本,适用于训练和评估对话生成模型、角色扮演系统以及情感分析等任务。这些对话样本不仅包含丰富的语言表达,还涵盖了多样化的情感和语境,为模型提供了真实的对话环境。
解决学术问题
该数据集解决了自然语言处理领域中对话系统训练数据稀缺的问题。传统的对话数据集往往局限于特定领域或单一角色,而extract-dialogue通过从小说中提取多角色对话,极大地丰富了对话数据的多样性和复杂性。这不仅有助于提升对话模型的泛化能力,还为研究情感计算、角色建模等提供了宝贵的资源,推动了相关领域的学术进展。
衍生相关工作
基于extract-dialogue数据集,研究者们开发了多种对话生成模型和情感分析工具。例如,有研究利用该数据集训练了基于Transformer的对话生成模型,显著提升了对话的连贯性和情感表达能力。此外,还有工作探索了如何利用该数据集进行角色建模,开发了能够模拟特定角色对话的AI系统。这些衍生工作不仅丰富了自然语言处理的研究内容,还为实际应用提供了技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作