extract-dialogue|文本处理数据集|对话提取数据集

github2024-01-28 更新2024-05-31 收录

文本处理

对话提取

下载链接：

https://github.com/KMnO4-zx/extract-dialogue

下载链接

链接失效反馈

资源简介：

本项目利用chatgpt从小说中提取对话集，提取的样本中包括角色和对话内容，以JSON格式存储。

This project utilizes ChatGPT to extract dialogue sets from novels. The extracted samples include characters and dialogue content, stored in JSON format.

创建时间：

2023-08-18

原始信息汇总

数据集概述

数据集名称

Extract Dialogue

数据集描述

本项目利用chatgpt从小说中提取对话集，提取的样本中包括role（角色）和dialogue（对话）。

数据集内容示例

json { "role": "艾伦", "dialogue": "不，不要提，这真是太倒霉了！我从楼梯上摔了下去，出现了较为严重的骨裂，只能打石膏做固定。" } { "role": "克莱恩", "dialogue": "真是不够走运啊。" }

数据集使用方法

克隆仓库：git clone https://github.com/KMnO4-zx/extract-dialogue.git
切换目录：cd extract-dialogue
安装依赖：pip install -r requirements.txt
创建.env文件：填入DEEPSEEK_API
放置小说或文本：放到当前目录，并在example.py中修改path
修改schema.py：建议结合要提取的小说修改schema示例
运行example.py：python example.py

数据集输出示例

json {"role": "克莱恩", "dialogue": "在帮警察们调查那起连环杀人案，虽然不一定能有收获，但赏金足够诱人，而且，和警察部门建立良好的关系对我们私家侦探来说非常重要。"} {"role": "塔利姆", "dialogue": "这果然是大侦探忙碌的事情。"} {"role": "塔利姆", "dialogue": "莫里亚蒂先生，我能请教一个问题吗？"} {"role": "克莱恩", "dialogue": "这单免费，还有，叫我夏洛克就行了。"} {"role": "塔利姆", "dialogue": "我有个朋友，爱上了不该爱的人，这种情况该怎么处理？"} {"role": "克莱恩", "dialogue": "我唯一的建议是，不要犯法。"} {"role": "克莱恩", "dialogue": "首先，我们要弄清楚‘不该’是源于什么？双方的家庭之间有仇恨关系？"} {"role": "塔利姆", "dialogue": "不，这不是《罗密欧与朱丽叶》的故事！"}

AI搜集汇总

数据集介绍

构建方式

extract-dialogue数据集的构建方式主要依赖于先进的自然语言处理技术，特别是通过使用`chatgpt`模型，从各类小说文本中自动提取对话内容。该过程首先通过预定义的`schema`结构，明确对话的角色和内容，随后利用`chatgpt`对小说文本进行解析，提取出符合格式的对话数据。这一方法不仅提高了数据集的构建效率，还确保了对话内容的准确性和一致性。

特点

extract-dialogue数据集的主要特点在于其高度结构化的对话数据，每条对话都明确标注了发言角色和具体内容，便于后续的分析和应用。此外，该数据集的多样性体现在其涵盖了多种小说类型和风格，从而为模型训练提供了丰富的语料资源。数据集的格式简洁明了，便于直接导入各类机器学习模型进行处理。

使用方法

使用extract-dialogue数据集时，用户首先需要克隆仓库并安装相关依赖，然后根据需求调整`schema.py`中的结构定义。接着，将目标小说文本放置在指定目录，并通过修改`example.py`中的路径参数来指定输入文件。运行脚本后，系统将自动提取对话并保存为JSONL格式，用户可直接读取这些文件进行进一步的分析或模型训练。

背景与挑战

背景概述

在自然语言处理与对话系统领域，构建高质量的对话数据集是推动模型泛化能力提升的关键。extract-dialogue数据集由KMnO4-zx团队创建，旨在从小说文本中提取结构化的对话数据，为Character AI等对话系统提供丰富的训练资源。该数据集的核心研究问题是如何从非结构化文本中高效、准确地提取角色与对话内容，并将其转化为可用于模型训练的格式。通过利用chatgpt等先进语言模型，extract-dialogue不仅为对话系统的泛化提供了新的数据源，还为小说文本的自动化处理开辟了新的研究方向。

当前挑战

extract-dialogue数据集在构建过程中面临多重挑战。首先，从小说文本中提取对话需要解决角色识别与对话边界划分的问题，这要求模型具备高精度的自然语言理解能力。其次，不同小说中的角色命名与对话风格各异，如何设计通用的提取规则以适应多样化的文本风格是一个技术难点。此外，数据集的构建还依赖于高质量的API接口与计算资源，如何在有限的资源下高效完成数据提取与处理也是一大挑战。最后，数据集的标注质量直接影响模型的训练效果，如何确保提取的对话数据准确且无歧义是构建过程中的关键问题。

常用场景

经典使用场景

extract-dialogue数据集的经典使用场景主要集中在自然语言处理领域，特别是对话系统的构建与优化。通过从小说中提取角色对话，该数据集为研究人员提供了丰富的多角色对话样本，适用于训练和评估对话生成模型、角色扮演系统以及情感分析等任务。这些对话样本不仅包含丰富的语言表达，还涵盖了多样化的情感和语境，为模型提供了真实的对话环境。

解决学术问题

该数据集解决了自然语言处理领域中对话系统训练数据稀缺的问题。传统的对话数据集往往局限于特定领域或单一角色，而extract-dialogue通过从小说中提取多角色对话，极大地丰富了对话数据的多样性和复杂性。这不仅有助于提升对话模型的泛化能力，还为研究情感计算、角色建模等提供了宝贵的资源，推动了相关领域的学术进展。

衍生相关工作

基于extract-dialogue数据集，研究者们开发了多种对话生成模型和情感分析工具。例如，有研究利用该数据集训练了基于Transformer的对话生成模型，显著提升了对话的连贯性和情感表达能力。此外，还有工作探索了如何利用该数据集进行角色建模，开发了能够模拟特定角色对话的AI系统。这些衍生工作不仅丰富了自然语言处理的研究内容，还为实际应用提供了技术支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国劳动力动态调查

“中国劳动力动态调查” （China Labor-force Dynamics Survey，简称 CLDS）是“985”三期“中山大学社会科学特色数据库建设”专项内容，CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查，系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响，建立劳动力、家庭和社区三个层次上的追踪数据库，从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库收录

UCM-Captions, Sydney-Captions, RSICD, RSITMD, NWPU-Captions, RS5M, SkyScript

UCM-Captions: 包含613张图像，分辨率为256×256。Sydney-Captions: 包含2,100张图像，分辨率为500×500。RSICD: 包含10,921张图像，分辨率为224×224。RSITMD: 包含4,743张图像，分辨率为256×256。NWPU-Captions: 包含31,500张图像，分辨率为256×256。RS5M: 包含超过500万张图像，分辨率为所有可能的分辨率。SkyScript: 包含520万张图像，分辨率为所有可能的分辨率。

github 收录

jpft/danbooru2023

Danbooru2023是一个大规模的动漫图像数据集，包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面，平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建，扩展至包含ID #6,857,737的图像，增加了超过180万张新图像，总大小约为8TB。图像以原始格式提供，分为1000个子目录，使用图像ID的模1000进行分桶，以避免文件系统性能问题。

hugging_face 收录

UniMed

UniMed是一个大规模、开源的多模态医学数据集，包含超过530万张图像-文本对，涵盖六种不同的医学成像模态：X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型（LLMs）将特定模态的分类数据集转换为图像-文本格式，并结合现有的医学领域的图像-文本数据，以促进可扩展的视觉语言模型（VLM）预训练。

github 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集，包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述，包括数据来源、图像数量、标注信息等。

github 收录