Multi-Questioner Dialogue Dataset (MQDialog)

github2024-12-21 更新2025-01-13 收录

下载链接：

https://github.com/Nidryen-zh/QuestionerAwareResponder

下载链接

链接失效反馈

官方服务：

资源简介：

我们构建了Multi-Questioner Dialogue Dataset (MQDialog)来评估问题者感知的个性化。该数据集可以在[huggingface](https://huggingface.co/datasets/Nidhogg-zh/Multi-Questioner_Dialogue)上获取。

我们构建了多提问者对话数据集（Multi-Questioner Dialogue Dataset，MQDialog），用于评估提问者感知维度下的个性化表现。该数据集可通过[Hugging Face](https://huggingface.co/datasets/Nidhogg-zh/Multi-Questioner_Dialogue)获取。

创建时间：

2024-12-16

原始信息汇总

数据集概述

数据集名称

Multi-Questioner Dialogue Dataset (MQDialog)

数据集描述

该数据集用于评估问题者感知的个性化生成模型，旨在为不同用户生成针对相同查询的定制化响应。

数据集获取

数据集可通过以下链接获取：

Hugging Face

数据集相关文件与代码

finetune_llama.py: Llama模型的训练代码，默认使用LoRA调优。
finetune_qwen.py: Qwen模型的训练代码，默认使用LoRA调优。
trainer.py: 从transformers==4.37分叉而来，经过修改，用于Qwen和Llama的训练。
trainer_with_eval.py: 重写了trainer的evaluation_loop函数，增加了ROUGE评估。
utils.py: 包含一些工具函数。
models/modeling_llama.py: 从transformers==4.37分叉而来，添加了用于英文数据集的问题者感知个性化模型。
models/modeling_qwen.py: 从transformers==4.37分叉而来，添加了用于中文数据集的问题者感知个性化模型。
data: 存放数据集（Multi-Questioner Dialogue Dataset）。
output: 保存训练结果。
finetune: 存放不同数据集的配置文件。

环境安装

提供了QAR.yaml文件，包含运行环境的所有设置，Python版本为3.9.18。可以通过以下命令安装环境： sh conda env create -f QAR.yaml

或使用pip安装必要的包。

运行示例

提供了运行代码的示例脚本finetune/run_example.sh，可以通过以下命令运行并记录输出： sh bash finetune/run_example.sh 2>&1 | tee output/run_example_log.txt

引用

bib @misc{zeng2024personalizedllmgeneratingcustomized, title={Personalized LLM for Generating Customized Responses to the Same Query from Different Users}, author={Hang Zeng and Chaoyue Niu and Fan Wu and Chengfei Lv and Guihai Chen}, year={2024}, eprint={2412.11736}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2412.11736}, }

搜集汇总

数据集介绍

构建方式

Multi-Questioner Dialogue Dataset (MQDialog) 的构建旨在评估基于提问者感知的个性化响应生成。该数据集通过收集不同用户对同一查询的多样化对话，结合了提问者的个性化特征，生成了丰富的对话样本。数据集的构建过程包括对大规模对话数据的筛选、标注和重组，确保每个样本都能反映提问者的独特背景和偏好。通过这种方式，数据集为研究个性化语言模型提供了坚实的基础。

特点

MQDialog 数据集的一个显著特点是其专注于提问者感知的个性化响应生成。数据集中的每个对话样本都包含了提问者的个性化信息，使得模型能够根据不同的提问者生成定制化的响应。此外，数据集涵盖了多种语言和文化背景，确保了其多样性和广泛适用性。通过引入角色分解和低秩矩阵分解等技术，数据集进一步增强了模型在个性化响应生成中的表现。

使用方法

使用 MQDialog 数据集时，研究人员可以通过提供的代码库进行模型的微调和评估。代码库中包含了针对 Llama 和 Qwen 模型的微调脚本，支持 LoRA 调优等先进技术。用户可以通过运行 `finetune/run_example.sh` 脚本来启动训练过程，并将输出日志保存到指定目录。此外，代码库还提供了详细的配置文件和工具函数，方便用户根据具体需求进行定制化操作。通过这种方式，研究人员可以轻松地在 MQDialog 数据集上进行实验，探索个性化语言模型的潜力。

背景与挑战

背景概述

Multi-Questioner Dialogue Dataset (MQDialog) 是由Hang Zeng等研究人员于2024年提出的，旨在研究基于提问者感知的大型语言模型（LLM）个性化生成技术。该数据集的核心研究问题是如何为不同用户生成针对同一查询的定制化响应。通过引入角色分解和低秩分解等技术，MQDialog在自然语言处理领域推动了对话系统的个性化发展，尤其是在多用户交互场景中的应用。该数据集的发布为研究人员提供了一个新的基准，用于评估和优化个性化对话生成模型。

当前挑战

MQDialog数据集在构建和应用过程中面临多重挑战。首先，个性化对话生成需要模型能够准确捕捉不同用户的提问风格和偏好，这对模型的上下文理解和生成能力提出了更高要求。其次，数据集的构建过程中，如何确保对话数据的多样性和代表性，以避免模型过拟合或生成偏差，是一个关键问题。此外，模型的训练和评估需要高效的计算资源，尤其是在处理大规模对话数据时，如何平衡计算效率与生成质量，是技术实现中的一大挑战。这些挑战不仅影响了数据集的构建，也对后续的研究和应用提出了更高的要求。

常用场景

经典使用场景

Multi-Questioner Dialogue Dataset (MQDialog) 主要用于评估和优化基于大语言模型（LLM）的个性化响应生成。该数据集通过模拟不同用户对同一问题的提问，帮助研究人员训练模型以生成针对不同提问者的定制化回答。这一场景在对话系统和个性化推荐系统中尤为重要，能够显著提升用户体验。

衍生相关工作

基于 MQDialog 的研究衍生了一系列经典工作，例如基于角色分解的 Llama 和 Qwen 模型优化，以及低秩分解技术的应用。这些工作不仅扩展了个性化语言模型的研究边界，还为多语言环境下的对话生成提供了新的技术路径。

数据集最近研究