five

weaverlabs/gutenberg-conversations

收藏
Hugging Face2024-04-01 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/weaverlabs/gutenberg-conversations
下载链接
链接失效反馈
官方服务:
资源简介:
The Gutenberg Conversations Dataset是一个从Project Gutenberg图书馆精心挑选的对话摘录数据集,涵盖了多种文学流派和时期。数据集旨在支持自然语言处理、对话分析、机器学习和语言学的研究。每个条目都包含对话摘录和元数据,如作者姓名、出版年份、文学流派和唯一对话标识符。数据集分为训练、验证和测试三个主要部分,训练部分进一步分为多个子目录以管理大量数据。数据集的主要用途包括训练对话AI模型、分析文学中的对话结构、研究语言使用的历史变化以及探索特定流派的对话风格。

The Gutenberg Conversations Dataset是一个从Project Gutenberg图书馆精心挑选的对话摘录数据集,涵盖了多种文学流派和时期。数据集旨在支持自然语言处理、对话分析、机器学习和语言学的研究。每个条目都包含对话摘录和元数据,如作者姓名、出版年份、文学流派和唯一对话标识符。数据集分为训练、验证和测试三个主要部分,训练部分进一步分为多个子目录以管理大量数据。数据集的主要用途包括训练对话AI模型、分析文学中的对话结构、研究语言使用的历史变化以及探索特定流派的对话风格。
提供机构:
weaverlabs
原始信息汇总

The Gutenberg Conversations Dataset 概述

数据集描述

  • 来源与内容:该数据集精心从Project Gutenberg的广泛图书馆中筛选,专注于文学作品中的对话摘录,涵盖多种类型和时期。
  • 目的:支持自然语言处理、对话分析、机器学习和语言学研究。

数据集结构

  • 数据条目:每个条目包含对话摘录及其元数据,如作者名、出版年份、文学类型和唯一对话标识符。
  • 组织方式:数据集分为训练集、验证集和测试集。训练集进一步分为多个子目录,以管理大量数据。

数据文件

  • 格式:每个.json文件包含多个对话摘录及其元数据。

数据集分割

  • 训练集:用于训练机器学习模型,包含数据集的大部分内容。
  • 验证集:用于调整模型参数和防止过拟合。
  • 测试集:用于评估模型在未见数据上的性能。

主要用途

  • 用于训练对话AI模型。
  • 分析文学中的对话结构。
  • 研究语言使用的历史变迁。
  • 探索特定类型的对话风格。

可访问性

  • 数据集公开可用,可通过Hugging Face 🤗 Datasets平台访问。鼓励用户分享对数据集的改进、注释或任何增强。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作