gutenberg-moderne-dpo

Hugging Face2024-11-17 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/nbeerbower/gutenberg-moderne-dpo

下载链接

链接失效反馈

官方服务：

资源简介：

Gutenberg-Moderne DPO数据集旨在通过使用Project Gutenberg中的公共领域书籍来增强LLMs的写作能力。该数据集选择了20世纪初期的现代语言和简洁散文的书籍，包括Sinclair Lewis、Theodore Dreiser、John Dos Passos和Agatha Christie等作家的作品。数据集的处理过程与nbeerbower/gutenberg2-dpo相似，但改进了原始文本的清理，并回传到Gutenberg2数据集。使用gpt4o-mini生成摘要和提示，并使用nbeerbower/Mahou-1.5-mistral-nemo-12B-lorablated生成拒绝值。

创建时间：

2024-11-17

原始信息汇总

Gutenberg-Moderne DPO

概述

语言: 英语
许可证: Apache 2.0
目的: 增强大型语言模型（LLMs）的写作能力
数据来源: Project Gutenberg 的公共领域书籍

数据处理

选择标准: 选择20世纪初的现代语言和简洁散文的书籍
处理流程: 与 nbeerbower/gutenberg2-dpo 相似，但改进了原始文本的清理
工具:
- 使用 gpt4o-mini 生成摘要和提示
- 使用 nbeerbower/Mahou-1.5-mistral-nemo-12B-lorablated 生成被拒绝的值

代码

代码库: gutenberg-tools
许可证: MIT

选定作品

Free Air - Sinclair Lewis (1919)
Jennie Gerhardt - Theodore Dreiser (1911)
Manhattan Transfer - John Dos Passos (1925)
The Mysterious Affair at Styles - Agatha Christie (1920)
Sister Carrie - Theodore Dreiser (1900)
The Financier - Theodore Dreiser (1912)
The Job - Sinclair Lewis (1917)
The Secret Adversary - Agatha Christie (1922)
The Titan - Theodore Dreiser (1914)

免责声明

数据集免费提供，无任何担保
数据可能包含错误，并可能定期修改
用户可自由修改和重新分发

搜集汇总

数据集介绍

构建方式

Gutenberg-Moderne DPO数据集的构建过程基于Project Gutenberg的公共领域书籍，特别选取了20世纪初期语言风格简洁的现代文学作品。构建过程中，原始文本的清洗得到了改进，并回溯应用于Gutenberg2数据集。通过gpt4o-mini生成摘要和提示，同时使用Mahou-1.5-mistral-nemo-12B-lorablated模型生成被拒绝的文本值，确保了数据集的多样性和质量。

特点

该数据集的特点在于其专注于20世纪初期现代文学作品，语言风格简洁且富有时代特色。数据集中的文本经过精心清洗和处理，确保了数据的准确性和一致性。通过使用先进的模型生成摘要和提示，数据集不仅提供了丰富的文本内容，还为语言模型的训练提供了高质量的对比样本。

使用方法

Gutenberg-Moderne DPO数据集主要用于增强大型语言模型的写作能力。用户可以通过加载数据集，利用其中的文本内容和对比样本进行模型训练和微调。数据集中的摘要和提示可以作为输入，帮助模型生成更符合现代语言风格的文本。此外，用户还可以根据需要对数据集进行修改和再分发，以适应不同的研究需求。

背景与挑战

背景概述

Gutenberg-Moderne DPO数据集旨在通过利用来自古腾堡计划的公共领域书籍，提升大型语言模型（LLMs）的写作能力。该数据集由nbeerbower团队创建，灵感来源于Jon Durbin的Gutenberg DPO数据集。数据集主要选取了20世纪早期的现代文学作品，这些作品以其简洁的散文风格和现代语言著称。通过使用gpt4o-mini生成摘要和提示，并利用Mahou-1.5-mistral-nemo-12B-lorablated模型生成拒绝值，数据集在文本清理和生成过程中进行了优化。该数据集的发布为自然语言处理领域的研究提供了新的资源，尤其是在提升模型生成文本的质量和风格方面具有重要价值。

当前挑战

Gutenberg-Moderne DPO数据集在构建和应用过程中面临多重挑战。首先，如何从大量公共领域书籍中筛选出适合训练现代语言模型的文本，是一个复杂且耗时的过程。其次，尽管数据集在文本清理方面进行了改进，但原始文本中仍可能存在错误或不一致之处，这要求研究人员在数据预处理阶段投入大量精力。此外，生成高质量的摘要和提示需要依赖先进的模型，而这些模型的输出可能存在偏差或不准确性，进一步增加了数据集的构建难度。最后，如何确保生成的拒绝值能够有效提升模型的写作能力，也是一个需要深入研究的核心问题。

常用场景

经典使用场景

Gutenberg-Moderne DPO数据集主要用于提升大型语言模型（LLMs）的写作能力，特别是在处理早期20世纪现代文学作品时。通过从Project Gutenberg中精选的公共领域书籍，该数据集为模型提供了丰富的语言素材，帮助其在生成文本时更加贴近现代语言的表达风格。

衍生相关工作

Gutenberg-Moderne DPO数据集启发了多项相关研究，特别是在语言模型优化和文本生成领域。例如，基于该数据集的研究工作进一步探索了如何利用现代文学作品来提升模型的写作能力，并衍生出多个改进版本的训练数据集和模型，推动了自然语言处理技术的发展。

数据集最近研究