FED
收藏arXiv2024-07-04 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2407.03841v1
下载链接
链接失效反馈官方服务:
资源简介:
FED数据集由INESC-ID和里斯本技术高级研究所创建,包含4,712条标注,涉及人类与聊天机器人之间的对话。该数据集详细标注了对话的各个质量方面,如流畅性、相关性等,共计十八个维度。数据集的创建旨在为大型语言模型在开放域对话评估中提供基准,特别关注于现代聊天机器人的性能评估。
提供机构:
INESC-ID, 里斯本技术高级研究所
创建时间:
2024-07-04
搜集汇总
数据集介绍

构建方式
FED数据集的构建方式是通过人工标注和机器生成对话的方式进行的。数据集中包含了人与聊天机器人之间的对话,以及两个聊天机器人引擎(Meena和Mitsuku)之间的对话。每个对话都经过了对话级别和轮次级别的标注,总共包含了3348个轮次级别的数据点和1364个对话级别的数据点,共计4712个标注。数据集中的标注内容涵盖了18个质量方面,如有趣性、引人入胜、具体性、相关性、正确性、语义适当性、可理解性、流畅性、总体质量等。
特点
FED数据集的特点在于其包含了高质量的人工标注对话和聊天机器人生成的对话。这些对话被标注了18个质量方面,为评估对话系统的质量提供了全面的参考。此外,FED数据集还包含了人与聊天机器人之间的对话和两个聊天机器人引擎之间的对话,为研究不同类型的对话系统提供了便利。
使用方法
FED数据集的使用方法主要包括两个方面。首先,可以使用数据集中的标注结果来评估对话系统的质量。其次,可以将数据集中的对话作为训练数据,用于训练和优化对话系统。在实际使用中,可以根据需要选择不同的质量方面进行评估,也可以根据数据集中的对话类型选择不同的训练数据。
背景与挑战
背景概述
在自然语言处理(NLP)领域,大型语言模型(LLMs)在多种任务中展示了卓越的能力。特别是在自动开放域对话评估方面,LLMs已被无缝集成到评估框架中,并与人工评估共同构成了大多数评估的基础。然而,现有的评估基准往往依赖于过时的数据集,并评估诸如流畅性和相关性等方面,这些方面无法充分捕捉到最先进的聊天机器人模型的能力和局限性。本文深入分析了现有的评估基准,指出使用较旧的响应生成器和质量方面无法准确反映现代聊天机器人能力的现状。在一项针对最近LLM生成的数据集(SODA)的小型注释实验中,发现LLM评估器(如GPT-4)难以检测到当前LLM聊天机器人生成的对话中的实际缺陷。
当前挑战
现有的评估基准往往依赖于较旧的响应生成器和质量方面,无法准确反映现代聊天机器人能力的现状。随着LLMs的引入,评估流畅性和相关性等方面变得不再具有区分性,因为大多数模型现在都能输出流畅和相关的响应。此外,当前的评估基准主要集中在英语上,尽管DSTC11提供了中文和西班牙语的注释,但它们仅在测试集中部分可用。这种英语偏见进一步延伸到测试集,即使由母语为英语的注释员进行评估,所测量的方面也未能充分捕捉到对话中的语言和文化细微差别。
常用场景
经典使用场景
FED数据集主要被用于评估大型语言模型(LLMs)在开放域对话中的能力。它通过提供对话级别的细粒度评估,帮助研究人员更好地理解LLMs在对话生成中的优势和局限性。
解决学术问题
FED数据集解决了传统对话评估方法在评估LLMs能力方面的不足。传统的评估方法主要关注流畅度和相关性,而FED数据集引入了更多细粒度的评估维度,如趣味性、针对性、正确性、语义适当性、可理解性、流利性等,从而更全面地反映LLMs的能力。
衍生相关工作
FED数据集的发布,促进了LLMs在对话评估领域的研究。许多研究人员基于FED数据集,提出了各种新的评估方法和框架,如G-Eval、LLM-Eval、XDial-Eval等。这些方法不仅提高了LLMs的评估准确性,也推动了LLMs在对话评估领域的发展。
以上内容由遇见数据集搜集并总结生成



