KIWI

Name: KIWI
Creator: 德克萨斯大学奥斯汀分校
Published: 2024-03-07 01:16:44
License: 暂无描述

arXiv2024-03-07 更新2024-06-21 收录

下载链接：

https://www.cs.utexas.edu/~fxu/kiwi/

下载链接

链接失效反馈

官方服务：

资源简介：

KIWI是一个专为科学领域设计的知识密集型写作指令数据集，旨在帮助大型语言模型（LLMs）改进对研究问题的长篇回答。该数据集由专家标注者根据研究问题、初始模型生成的答案和相关论文集，迭代发布指令以指导模型修订和改进答案。KIWI包含234个交互会话中的1260个交互回合，每个回合包括用户指令、模型响应和人类对模型响应的评估。数据集的应用领域包括提高LLMs在知识密集型写作任务中的指令遵循能力，以及开发更准确的奖励模型。

KIWI is a knowledge-intensive writing instruction dataset specifically tailored for the scientific domain, aiming to assist Large Language Models (LLMs) in improving their long-form responses to research questions. This dataset is constructed by expert annotators, who iteratively release targeted instructions to guide model revision and answer refinement based on research questions, initial model-generated answers and relevant paper corpora. KIWI includes 1260 interaction turns across 234 interactive sessions, where each turn contains user instructions, model responses and human evaluations of the model's responses. The application scenarios of this dataset include enhancing the instruction-following capabilities of LLMs in knowledge-intensive writing tasks, as well as developing more accurate reward models.

提供机构：

德克萨斯大学奥斯汀分校

创建时间：

2024-03-07

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，评估大型语言模型作为写作助手的能力日益受到关注。KIWI数据集的构建采用了一种交互式设计，以模拟真实的研究写作场景。具体流程始于一个自然语言处理研究问题及一组相关论文，首先由语言模型基于检索到的段落生成初始答案。随后，专家标注者与模型进行多轮交互，每轮中标注者提出修订指令，模型生成修订后的答案，并由标注者评估其遵循指令的程度。该过程持续至答案令人满意或达到最大轮次，最终收集了涵盖三种前沿模型的1,260条交互记录，确保了数据在知识密集型写作任务中的代表性和深度。

特点

KIWI数据集的核心特点在于其聚焦于知识密集型的科学写作指令，这为评估模型在复杂信息整合与文本修订方面的能力提供了独特视角。数据集不仅包含了多样化的指令类型，如信息寻求类与文体修订类，还通过多轮交互捕捉了写作过程中的迭代特性。此外，每条记录均附有人类标注者对模型响应的细致评估，包括分类评分和自由形式的解释，这为深入分析模型失败模式提供了丰富依据。数据集的构建基于高质量的研究问题与文档集，确保了任务的挑战性和现实相关性，使其成为衡量和提升语言模型指令遵循能力的宝贵资源。

使用方法

KIWI数据集主要应用于评估和改进大型语言模型在知识密集型写作任务中的指令遵循能力。研究人员可利用该数据集进行模型性能的基准测试，特别是针对信息整合、精确编辑和多轮交互等关键方面。数据集中的指令和人类评估可用于训练专门的奖励模型或微调现有模型，以提升其作为写作助手的实用性。此外，KIWI还可用于开发自动评估方法，通过比较模型判断与人类标注的一致性，探索模型在评估自身输出方面的可靠性。其结构化的交互记录为研究写作辅助系统的迭代优化提供了实证基础。

背景与挑战

背景概述

在大型语言模型作为对话代理广泛部署的背景下，用户对知识密集型写作辅助的需求日益增长。KIWI数据集由德克萨斯大学奥斯汀分校和艾伦人工智能研究所的研究团队于2024年创建，旨在系统评估语言模型在科学领域长文本答案修订任务中的指令遵循能力。该数据集围绕自然语言处理研究问题，通过专家与模型的多轮交互，收集了涵盖信息寻求与文体修改的精细化指令，为核心研究问题——即模型在整合多文档信息与执行精确编辑方面的局限性——提供了实证分析基础，对推动对话式人工智能在学术写作等专业场景的应用具有重要影响力。

当前挑战

KIWI数据集所针对的知识密集型写作任务面临双重挑战。在领域问题层面，模型需克服多文档信息融合的困难，即在保持答案连贯性的前提下，从分散的学术文献中检索并整合新证据，同时需执行具有严格位置与长度约束的精确文本编辑，例如在指定段落添加特定句子。在构建过程中，挑战主要体现于高质量（问题-文档集）对的筛选，需确保问题具备独立性与学术价值，且文档集能提供充分答案依据；此外，设计能模拟真实写作迭代过程的多轮交互框架，并协调领域专家进行耗时且主观性较强的质量评估，亦是数据集构建的关键难点。

常用场景

经典使用场景

在自然语言处理领域，KIWI数据集为评估大型语言模型在知识密集型写作辅助任务中的指令遵循能力提供了基准平台。该数据集通过模拟研究人员与模型之间的多轮交互，捕捉了从信息整合到文本风格调整的完整修订过程。其经典使用场景聚焦于科学文献综述的撰写，研究者基于给定研究问题及相关论文集合，向模型发出迭代式指令以优化长篇幅答案的准确性与连贯性。

衍生相关工作

KIWI数据集催生了多个重要研究方向，包括基于人类反馈的指令遵循模型优化、多文档摘要的精确控制生成以及学术文本的自动化评估体系构建。后续研究可沿三个维度展开：一是利用其人工修订样本训练专业化写作模型；二是开发针对科学写作的指令遵循评估基准；三是探索跨领域知识密集型写作任务的迁移学习框架，推动智能写作系统向更深层次的认知协作演进。

数据集最近研究