weaverlabs/gutenberg-conversations

Name: weaverlabs/gutenberg-conversations
Creator: weaverlabs
Published: 2024-04-01 20:49:45
License: 暂无描述

Hugging Face2024-04-01 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/weaverlabs/gutenberg-conversations

下载链接

链接失效反馈

官方服务：

资源简介：

The Gutenberg Conversations Dataset是一个从Project Gutenberg图书馆精心挑选的对话摘录数据集，涵盖了多种文学流派和时期。数据集旨在支持自然语言处理、对话分析、机器学习和语言学的研究。每个条目都包含对话摘录和元数据，如作者姓名、出版年份、文学流派和唯一对话标识符。数据集分为训练、验证和测试三个主要部分，训练部分进一步分为多个子目录以管理大量数据。数据集的主要用途包括训练对话AI模型、分析文学中的对话结构、研究语言使用的历史变化以及探索特定流派的对话风格。

提供机构：

weaverlabs

原始信息汇总

The Gutenberg Conversations Dataset 概述

数据集描述

来源与内容：该数据集精心从Project Gutenberg的广泛图书馆中筛选，专注于文学作品中的对话摘录，涵盖多种类型和时期。
目的：支持自然语言处理、对话分析、机器学习和语言学研究。

数据集结构

数据条目：每个条目包含对话摘录及其元数据，如作者名、出版年份、文学类型和唯一对话标识符。
组织方式：数据集分为训练集、验证集和测试集。训练集进一步分为多个子目录，以管理大量数据。

数据文件

格式：每个.json文件包含多个对话摘录及其元数据。

数据集分割

训练集：用于训练机器学习模型，包含数据集的大部分内容。
验证集：用于调整模型参数和防止过拟合。
测试集：用于评估模型在未见数据上的性能。

主要用途

用于训练对话AI模型。
分析文学中的对话结构。
研究语言使用的历史变迁。
探索特定类型的对话风格。

可访问性

数据集公开可用，可通过Hugging Face 🤗 Datasets平台访问。鼓励用户分享对数据集的改进、注释或任何增强。

5,000+

优质数据集

54 个

任务类型

进入经典数据集