five

extract-dialogue|文本处理数据集|对话提取数据集

收藏
github2024-01-28 更新2024-05-31 收录
文本处理
对话提取
下载链接:
https://github.com/KMnO4-zx/extract-dialogue
下载链接
链接失效反馈
资源简介:
本项目利用chatgpt从小说中提取对话集,提取的样本中包括角色和对话内容,以JSON格式存储。

This project utilizes ChatGPT to extract dialogue sets from novels. The extracted samples include characters and dialogue content, stored in JSON format.
创建时间:
2023-08-18
原始信息汇总

数据集概述

数据集名称

  • Extract Dialogue

数据集描述

  • 本项目利用chatgpt从小说中提取对话集,提取的样本中包括role(角色)和dialogue(对话)。

数据集内容示例

json { "role": "艾伦", "dialogue": "不,不要提,这真是太倒霉了!我从楼梯上摔了下去,出现了较为严重的骨裂,只能打石膏做固定。" } { "role": "克莱恩", "dialogue": "真是不够走运啊。" }

数据集使用方法

  1. 克隆仓库git clone https://github.com/KMnO4-zx/extract-dialogue.git
  2. 切换目录cd extract-dialogue
  3. 安装依赖pip install -r requirements.txt
  4. 创建.env文件:填入DEEPSEEK_API
  5. 放置小说或文本:放到当前目录,并在example.py中修改path
  6. 修改schema.py:建议结合要提取的小说修改schema示例
  7. 运行example.pypython example.py

数据集输出示例

json {"role": "克莱恩", "dialogue": "在帮警察们调查那起连环杀人案,虽然不一定能有收获,但赏金足够诱人,而且,和警察部门建立良好的关系对我们私家侦探来说非常重要。"} {"role": "塔利姆", "dialogue": "这果然是大侦探忙碌的事情。"} {"role": "塔利姆", "dialogue": "莫里亚蒂先生,我能请教一个问题吗?"} {"role": "克莱恩", "dialogue": "这单免费,还有,叫我夏洛克就行了。"} {"role": "塔利姆", "dialogue": "我有个朋友,爱上了不该爱的人,这种情况该怎么处理?"} {"role": "克莱恩", "dialogue": "我唯一的建议是,不要犯法。"} {"role": "克莱恩", "dialogue": "首先,我们要弄清楚‘不该’是源于什么?双方的家庭之间有仇恨关系?"} {"role": "塔利姆", "dialogue": "不,这不是《罗密欧与朱丽叶》的故事!"}

AI搜集汇总
数据集介绍
main_image_url
构建方式
extract-dialogue数据集的构建方式主要依赖于先进的自然语言处理技术,特别是通过使用`chatgpt`模型,从各类小说文本中自动提取对话内容。该过程首先通过预定义的`schema`结构,明确对话的角色和内容,随后利用`chatgpt`对小说文本进行解析,提取出符合格式的对话数据。这一方法不仅提高了数据集的构建效率,还确保了对话内容的准确性和一致性。
特点
extract-dialogue数据集的主要特点在于其高度结构化的对话数据,每条对话都明确标注了发言角色和具体内容,便于后续的分析和应用。此外,该数据集的多样性体现在其涵盖了多种小说类型和风格,从而为模型训练提供了丰富的语料资源。数据集的格式简洁明了,便于直接导入各类机器学习模型进行处理。
使用方法
使用extract-dialogue数据集时,用户首先需要克隆仓库并安装相关依赖,然后根据需求调整`schema.py`中的结构定义。接着,将目标小说文本放置在指定目录,并通过修改`example.py`中的路径参数来指定输入文件。运行脚本后,系统将自动提取对话并保存为JSONL格式,用户可直接读取这些文件进行进一步的分析或模型训练。
背景与挑战
背景概述
在自然语言处理与对话系统领域,构建高质量的对话数据集是推动模型泛化能力提升的关键。extract-dialogue数据集由KMnO4-zx团队创建,旨在从小说文本中提取结构化的对话数据,为Character AI等对话系统提供丰富的训练资源。该数据集的核心研究问题是如何从非结构化文本中高效、准确地提取角色与对话内容,并将其转化为可用于模型训练的格式。通过利用chatgpt等先进语言模型,extract-dialogue不仅为对话系统的泛化提供了新的数据源,还为小说文本的自动化处理开辟了新的研究方向。
当前挑战
extract-dialogue数据集在构建过程中面临多重挑战。首先,从小说文本中提取对话需要解决角色识别与对话边界划分的问题,这要求模型具备高精度的自然语言理解能力。其次,不同小说中的角色命名与对话风格各异,如何设计通用的提取规则以适应多样化的文本风格是一个技术难点。此外,数据集的构建还依赖于高质量的API接口与计算资源,如何在有限的资源下高效完成数据提取与处理也是一大挑战。最后,数据集的标注质量直接影响模型的训练效果,如何确保提取的对话数据准确且无歧义是构建过程中的关键问题。
常用场景
经典使用场景
extract-dialogue数据集的经典使用场景主要集中在自然语言处理领域,特别是对话系统的构建与优化。通过从小说中提取角色对话,该数据集为研究人员提供了丰富的多角色对话样本,适用于训练和评估对话生成模型、角色扮演系统以及情感分析等任务。这些对话样本不仅包含丰富的语言表达,还涵盖了多样化的情感和语境,为模型提供了真实的对话环境。
解决学术问题
该数据集解决了自然语言处理领域中对话系统训练数据稀缺的问题。传统的对话数据集往往局限于特定领域或单一角色,而extract-dialogue通过从小说中提取多角色对话,极大地丰富了对话数据的多样性和复杂性。这不仅有助于提升对话模型的泛化能力,还为研究情感计算、角色建模等提供了宝贵的资源,推动了相关领域的学术进展。
衍生相关工作
基于extract-dialogue数据集,研究者们开发了多种对话生成模型和情感分析工具。例如,有研究利用该数据集训练了基于Transformer的对话生成模型,显著提升了对话的连贯性和情感表达能力。此外,还有工作探索了如何利用该数据集进行角色建模,开发了能够模拟特定角色对话的AI系统。这些衍生工作不仅丰富了自然语言处理的研究内容,还为实际应用提供了技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

CBIS-DDSM

该数据集用于训练乳腺癌分类器或分割模型,包含3103张乳腺X光片,其中465张有多个异常。数据集分为训练集和测试集,还包括3568张裁剪的乳腺X光片和对应的掩码。

github 收录

weibo-comments-v1

该数据集包含多个特征,如id、文本内容、标记的id、用户昵称、评论和标签。数据集被分为训练集和测试集,分别有2325和582个样本。数据集的下载大小为810622字节,数据集大小为1266259.0字节。

huggingface 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录