DRESS-LLM Dataset

github2024-10-03 更新2024-10-04 收录

下载链接：

https://github.com/ArthurLeoM/DRESS-LLM

下载链接

链接失效反馈

官方服务：

资源简介：

DRESS-LLM数据集包含两个训练数据集（Train_Shakespeare.json和Train_DRC.json）和两个测试数据集（Valid_Shakespeare.json和Valid_DRC.json），用于语言风格转换任务。每个数据片段包含问题、目标风格输出和普通风格输出，两个输出在语义上几乎等价。

The DRESS-LLM Dataset includes two training datasets (Train_Shakespeare.json and Train_DRC.json) and two test datasets (Valid_Shakespeare.json and Valid_DRC.json) for language style transfer tasks. Each data instance contains a question, a target-style output and a plain-style output, where the two outputs are nearly semantically equivalent.

创建时间：

2024-10-02

原始信息汇总

DRESS-LLM 数据集概述

数据集描述

训练数据集:
- dataset/Train_Shakespeare.json: 用于语言风格转换任务的莎士比亚风格训练数据集。
- dataset/Train_DRC.json: 用于语言风格转换任务的《红楼梦》对话风格训练数据集。
- 每条数据包含 question（输入）、correct_answers（目标风格输出）和 incorrect_answers（普通风格输出）。
测试数据集:
- dataset/Valid_Shakespeare.json: 莎士比亚风格测试数据集，仅使用 question 进行测试。
- dataset/Valid_DRC.json: 《红楼梦》对话风格测试数据集，仅使用 question 进行测试。

数据集用途

用于语言风格转换任务，特别是莎士比亚风格和《红楼梦》对话风格的转换。
训练数据集用于提取风格子空间的指导向量，测试数据集用于评估模型生成答案的质量。

数据集结构

训练数据集:
- question: 输入问题。
- correct_answers: 目标风格输出。
- incorrect_answers: 普通风格输出。
测试数据集:
- question: 输入问题。

数据集相关文件

dataset/Train_Shakespeare.json
dataset/Train_DRC.json
dataset/Valid_Shakespeare.json
dataset/Valid_DRC.json

搜集汇总

数据集介绍

构建方式

在构建DRESS-LLM数据集时，研究者精心设计了两个训练数据集，分别命名为`Train_Shakespeare.json`和`Train_DRC.json`，旨在模拟莎士比亚风格和中国古典小说《红楼梦》中的对话风格。每条数据均包含三个关键元素：`question`（输入问题）、`correct_answers`（目标风格输出）和`incorrect_answers`（普通风格输出）。这两种输出在语义上几乎等价，但风格迥异，从而为语言风格转换任务提供了丰富的训练素材。

特点

DRESS-LLM数据集的显著特点在于其高度风格化的数据结构和语义等价性。通过精心设计的训练集，数据集不仅涵盖了莎士比亚的古典文学风格，还融入了中国古典小说《红楼梦》的对话特色，为风格迁移研究提供了多样化的语料。此外，测试集仅使用`question`进行评估，确保了模型在实际应用中的泛化能力。

使用方法

使用DRESS-LLM数据集时，首先通过运行`get_activations.py`脚本提取训练集的激活向量，并将其存储在`features`文件夹中。接着，执行`edit_weight.py`脚本对语言模型进行编辑，调整参数如`num_heads`和`alpha`以控制编辑的深度和强度，并将编辑后的模型保存至`edited_model`文件夹。最后，通过`generate.py`脚本对测试集进行推理，生成答案并保存至`result.json`文件中。整个流程遵循[DRESSing UP LLM]策略，确保在风格子空间中自适应调整引导强度，以提升生成质量。

背景与挑战

背景概述

DRESS-LLM数据集由一支专注于语言模型风格转换的研究团队创建，旨在解决大型语言模型（LLM）在风格化问答任务中的效率问题。该数据集的核心研究问题是如何通过风格子空间编辑技术，实现高效且准确的语言风格转换。数据集包含了莎士比亚风格和红楼梦对话风格两种训练数据，每条数据均包含问题、目标风格输出和普通风格输出。这一研究不仅推动了风格转换技术的发展，也为文学作品的数字化处理提供了新的工具和方法。

当前挑战

DRESS-LLM数据集在构建过程中面临的主要挑战包括：首先，如何确保风格转换后的输出与原始问题在语义上保持一致，同时又能准确体现目标风格的特点。其次，数据集的构建需要大量的文学作品文本作为基础，如何从海量文本中提取并标注出符合要求的数据是一个复杂且耗时的过程。此外，风格子空间编辑技术的实现需要精确控制模型的参数，这对算法的设计和优化提出了较高的要求。

常用场景

经典使用场景

DRESS-LLM数据集的经典使用场景在于语言风格转换任务，特别是在莎士比亚风格和红楼梦对话风格之间的转换。通过提供问题、目标风格输出和普通风格输出，该数据集能够训练模型在保持语义等价的同时，实现从一种风格到另一种风格的有效转换。

衍生相关工作

基于DRESS-LLM数据集，研究者们开发了多种风格迁移模型和算法，如DRESSing Up LLM策略，该策略通过调整风格子空间的引导强度，实现了更高生成质量的文本输出。此外，该数据集还促进了风格迁移在自然语言处理领域的广泛应用和深入研究。

数据集最近研究