declare-lab/InstructEvalImpact
收藏Hugging Face2023-06-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/declare-lab/InstructEvalImpact
下载链接
链接失效反馈官方服务:
资源简介:
IMPACT数据集包含200个由人类创建的提示,分为四个类别:信息性写作、专业性写作、论证性写作和创造性写作。这些提示用于测试大型语言模型(LLMs)的写作能力。信息性写作包括自我帮助建议或各种概念的解释;专业性写作涉及商业环境中的演示文稿或电子邮件建议;论证性写作涉及伦理和社会问题的辩论立场;创造性写作包括故事、诗歌和歌曲等多种写作形式。该数据集包含在我们的InstructEval基准套件中。
The IMPACT dataset contains 200 human-created prompts divided into four categories: informative writing, professional writing, argumentative writing, and creative writing. These prompts are designed to evaluate the writing capabilities of large language models (LLMs). Informative writing encompasses self-help advice or explanations of diverse concepts; professional writing covers presentation or email drafting guidance for business scenarios; argumentative writing centers on debating stances regarding ethical and social issues; creative writing includes various literary forms such as stories, poems, and songs. This dataset is included in our InstructEval benchmark suite.
提供机构:
declare-lab
原始信息汇总
数据集概述
数据集名称
IMPACT
数据集内容
IMPACT数据集包含200个人类创建的提示,用于测试大型语言模型(LLMs)的一般写作能力。这些提示分布在四个不同的使用场景中:
- Informative Writing: 包括自我帮助建议或各种概念解释的用户查询。
- Professional Writing: 涉及商业环境中的建议演示或电子邮件格式。
- Argumentative Writing: 关于伦理和社会问题的辩论立场。
- Creative Writing: 包括故事、诗歌和歌曲等多种写作格式。
数据集用途
该数据集用于评估LLMs在写作任务中的表现,如撰写信件或伦理辩论。
数据集评估方法
使用ChatGPT评估LLMs生成的答案质量,评估标准包括:
- Relevance: 答案与给定提示的相关性。
- Coherence: 文本质量,如组织和逻辑流。 每个答案根据Likert量表从1到5进行评分。
数据集评估结果
评估结果显示了不同模型在各个写作场景下的相关性和一致性得分。例如,ChatGPT在所有场景中的平均相关性得分为3.78,一致性得分为3.93。
数据集引用
若使用此数据集,请引用以下文章: bibtex @article{chia2023instructeval, title={INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models}, author={Yew Ken Chia and Pengfei Hong and Lidong Bing and Soujanya Poria}, journal={arXiv preprint arXiv:2306.04757}, year={2023} }
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,评估指令微调大语言模型的写作能力需依赖精心设计的基准数据集。IMPACT数据集的构建遵循系统性原则,研究者依据四种典型写作场景——信息性写作、专业性写作、论证性写作与创造性写作,人工撰写了共计200条提示词,每类场景各包含50条。这些提示词旨在全面覆盖日常咨询、商务沟通、伦理讨论及文学创作等多样化需求,为模型评估提供了结构化的输入框架。
特点
该数据集的核心特征在于其场景划分的多样性与评估维度的针对性。它不仅囊括了从实用建议到艺术表达的多层次写作任务,更通过相关性(Relevance)与连贯性(Coherence)两个关键指标,借助ChatGPT采用李克特五级量表对模型生成内容进行自动化评分。这种设计使得数据集能够细致刻画模型在不同文体中的逻辑组织、语言流畅度及主题贴合能力,为横向比较不同规模与架构的模型提供了标准化度量。
使用方法
使用IMPACT数据集时,研究者通常在零样本设置下,将数据集中的提示词输入待评估的大语言模型,并采用温度参数为1.0的采样解码策略生成文本回复。生成的回答随后由自动化评估流程(如基于ChatGPT的评判器)依据预设的相关性与连贯性标准进行打分。该数据集已集成于InstructEval基准测试套件中,支持研究者便捷地复现实验或将其扩展为自定义评估流程的一部分,以系统化衡量模型在指令遵循与文本生成方面的综合表现。
背景与挑战
背景概述
在大型语言模型(LLM)快速演进的时代,指令微调技术已成为提升模型遵循人类指令能力的关键途径。由新加坡科技研究局(A*STAR)下属的声明实验室(Declare-Lab)于2023年创建的IMPACT数据集,作为其InstructEval基准测试套件的重要组成部分,旨在系统评估指令微调后LLM在多样化写作任务上的综合表现。该数据集围绕信息性、专业性、论证性和创造性四大写作场景构建,共包含200条人工精心设计的提示,核心研究问题聚焦于量化模型生成文本在相关性与连贯性等维度的质量,为理解模型在复杂语言生成任务中的实际能力提供了标准化评估框架,对推动对话系统与文本生成领域的研究具有显著影响力。
当前挑战
IMPACT数据集致力于应对指令微调模型在开放式文本生成任务中评估标准化的核心挑战。具体而言,其首要挑战在于如何设计一套全面且平衡的评估体系,以准确衡量模型在跨越不同领域和风格的写作提示下的生成质量,这涉及对文本相关性、逻辑连贯性等主观维度的可靠量化。在数据集构建过程中,研究人员面临的主要挑战包括:精心设计覆盖广泛真实应用场景(如商务邮件、伦理辩论、诗歌创作)的提示语,确保其多样性与代表性;以及建立高效且一致的人工或自动化评估流程,以对模型输出进行可重复的评分,从而在控制成本的同时保证评估结果的效度与信度。
常用场景
经典使用场景
在自然语言处理领域,评估指令微调大语言模型的写作能力是当前研究的关键环节。IMPACT数据集通过涵盖信息性、专业性、论证性和创造性四大写作场景,为模型提供了多样化的文本生成测试基准。其经典使用场景在于系统性地衡量模型在零样本设置下,针对不同写作任务生成文本的相关性与连贯性,从而揭示模型在复杂语言表达中的综合表现。
实际应用
在实际应用中,IMPACT数据集可服务于智能写作助手、教育辅助工具及内容生成平台的开发。通过测试模型在商业邮件撰写、伦理辩论、创意故事生成等场景的表现,帮助开发者优化模型在真实环境中的实用性与可靠性,提升人工智能系统在专业写作和日常沟通中的辅助价值。
衍生相关工作
围绕IMPACT数据集衍生的经典工作包括InstructEval基准测试套件的构建,该套件整合了多维评估任务以全面衡量指令调优模型。相关研究进一步拓展了基于人类反馈的自动评估方法,并激发了如Flan-Alpaca、Dolly-V2等模型在写作任务上的针对性优化,推动了领域内模型能力评估体系的完善。
以上内容由遇见数据集搜集并总结生成



