human_rank_eval
收藏Hugging Face2024-07-23 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/huawei-noah/human_rank_eval
下载链接
链接失效反馈官方服务:
资源简介:
HumanRankEval数据集用于自动评估语言模型(LMs)作为对话助手的性能。该数据集包含14个不同主题的大规模、多样化和高质量问题集,每个问题有多个由人类编写和评分的答案。通过比较这些答案在LMs分布下的对数似然排名与人类排名之间的相关性,来评估LMs的性能。数据来源于StackExchange和StackOverflow,主要语言为英语。
The HumanRankEval dataset is developed for the automatic evaluation of language models (LMs) as conversational assistants. It contains a large-scale, diverse and high-quality set of questions spanning 14 distinct topics, where each question is paired with multiple answers that were written and scored by humans. The performance of target LMs is evaluated by comparing the correlation between the log-likelihood rankings of these answers under the LM's distribution and the human-provided rankings. The dataset is sourced from StackExchange and StackOverflow, with English as its primary language.
创建时间:
2024-07-23
原始信息汇总
数据集概述
数据集信息
许可证
- MIT
配置
- 默认配置
- 数据文件路径及分割:
HumanRankEvalSoftEng:data/HumanRankEvalSoftEng-*HumanRankEvalLanguagesSciences:data/HumanRankEvalLanguagesSciences-*HumanRankEvalEnglish:data/HumanRankEvalEnglish-*HumanRankEvalMath:data/HumanRankEvalMath-*HumanRankEvalUnix:data/HumanRankEvalUnix-*HumanRankEvalCPP:data/HumanRankEvalCPP-*HumanRankEvalJava:data/HumanRankEvalJava-*HumanRankEvalHTML:data/HumanRankEvalHTML-*HumanRankEvalAppleAndroid:data/HumanRankEvalAppleAndroid-*HumanRankEvalPhysics:data/HumanRankEvalPhysics-*HumanRankEvalCSDB:data/HumanRankEvalCSDB-*HumanRankEvalPython:data/HumanRankEvalPython-*HumanRankEvalStats:data/HumanRankEvalStats-*HumanRankEvalLaTeX:data/HumanRankEvalLaTeX-*
- 数据文件路径及分割:
数据集特征
- 问题
- 名称:
question - 数据类型:
string
- 名称:
- 答案
- 列表包含:
text:stringvotes:string
- 列表包含:
分割信息
- HumanRankEvalSoftEng
- 字节数:1953762
- 样本数:500
- HumanRankEvalLanguagesSciences
- 字节数:2088240
- 样本数:500
- HumanRankEvalEnglish
- 字节数:1253540
- 样本数:500
- HumanRankEvalMath
- 字节数:1794319
- 样本数:500
- HumanRankEvalUnix
- 字节数:1715449
- 样本数:500
- HumanRankEvalCPP
- 字节数:1610271
- 样本数:500
- HumanRankEvalJava
- 字节数:1603095
- 样本数:500
- HumanRankEvalHTML
- 字节数:1415909
- 样本数:500
- HumanRankEvalAppleAndroid
- 字节数:1447166
- 样本数:500
- HumanRankEvalPhysics
- 字节数:2593234
- 样本数:500
- HumanRankEvalCSDB
- 字节数:2391929
- 样本数:500
- HumanRankEvalPython
- 字节数:1493471
- 样本数:500
- HumanRankEvalStats
- 字节数:2410621
- 样本数:500
- HumanRankEvalLaTeX
- 字节数:2125300
- 样本数:500
数据集大小
- 下载大小:15235919
- 数据集大小:25896306
任务类别
- 文本生成
- 问答
大小类别
- 1K<n<10K
搜集汇总
数据集介绍

构建方式
HumanRankEval数据集的构建基于StackExchange和StackOverflow平台上的大量用户生成内容。通过从这些平台中提取多样化的问答对,数据集涵盖了多个主题领域,包括软件工程、语言科学、数学、编程语言等。每个问题均附有多个由人类撰写的答案,并经过评分,确保了数据的高质量和多样性。数据集的构建过程注重自动评估语言模型作为对话助手的能力,通过计算模型生成的答案与人类评分之间的相关性,提供了一种可扩展的评估方法。
特点
HumanRankEval数据集的特点在于其广泛的主题覆盖和高质量的人类评分数据。数据集包含14个不同的主题领域,每个主题下均有500个问答对,确保了数据的多样性和代表性。每个问题的答案均由人类撰写并评分,提供了可靠的基准用于评估语言模型的对话能力。此外,数据集的设计特别关注模型在指令微调后的表现,能够有效区分预训练模型和指令微调模型的表现差异。
使用方法
使用HumanRankEval数据集时,研究人员可以通过加载不同主题的问答对,评估语言模型在生成答案时的表现。具体方法是通过计算模型生成的答案与人类评分之间的相关性,来衡量模型的对话能力。数据集提供了详细的代码和指导,用户可以通过GitHub仓库获取相关资源,并按照提供的步骤进行模型评估。此外,数据集支持自动评估任务,能够快速反馈模型在指令微调后的表现变化,为语言模型的优化提供有力支持。
背景与挑战
背景概述
HumanRankEval数据集由华为伦敦研究中心的研究团队于2024年创建,旨在解决语言模型(LMs)作为对话助手的自动评估问题。该数据集的核心研究问题在于如何通过自动化的方式评估语言模型在对话任务中的表现,尤其是在指令遵循和对话能力方面的表现。传统的人类评估方法虽然准确,但难以扩展,而现有的自动评估方法则往往无法准确捕捉对话的复杂性和指令的遵循程度。HumanRankEval通过提供大规模、多样化且高质量的问题集,每个问题附带多个由人类编写并评分答案,为语言模型的评估提供了新的基准。该数据集在NAACL 2024会议上发布,并得到了广泛关注,推动了对话助手领域的研究进展。
当前挑战
HumanRankEval数据集面临的挑战主要体现在两个方面。首先,在领域问题方面,该数据集旨在解决语言模型在对话任务中的自动评估问题,尤其是如何准确评估模型在指令遵循和对话能力上的表现。这一问题的复杂性在于,对话任务涉及多轮交互、上下文理解和指令的精确执行,传统的自动评估方法难以全面捕捉这些维度。其次,在数据构建过程中,研究人员需要从StackExchange和StackOverflow等平台收集大量高质量的问题和答案,并确保这些数据的多样性和代表性。此外,如何设计有效的评估指标,使得自动评估结果与人类评分高度相关,也是一个重要的技术挑战。
常用场景
经典使用场景
HumanRankEval数据集广泛应用于语言模型(LMs)作为对话助手的自动评估任务中。通过提供大量由人类编写和评分的问题及其答案,该数据集能够帮助研究人员评估模型在生成自然语言回复时的表现。特别是在指令调优和偏好优化后的模型评估中,HumanRankEval通过计算模型生成答案的对数似然与人类评分的相关性,提供了一种高效且可扩展的评估方法。
衍生相关工作
HumanRankEval数据集催生了一系列相关研究工作,特别是在语言模型评估和对话系统优化领域。基于该数据集的研究成果,许多学者提出了改进模型指令调优和偏好优化的新方法。此外,该数据集还被用于开发更高效的自动评估工具,进一步推动了对话助手技术的标准化和规模化应用。这些工作不仅扩展了HumanRankEval的应用范围,也为相关领域的研究提供了宝贵的数据支持。
数据集最近研究
最新研究方向
在自然语言处理领域,随着语言模型(LMs)作为对话助手的广泛应用,如何高效评估其性能成为研究热点。HumanRankEval数据集通过提供大规模、多样化且高质量的问题集,每个问题附带多个由人类编写并评分的答案,为自动评估LMs的对话能力提供了新思路。该数据集通过计算模型生成的答案与人类评分之间的相关性,有效区分了预训练模型和指令微调模型的表现。研究表明,HumanRankEval在捕捉模型对话能力和指令遵循方面表现出色,显著提升了评估的准确性和可扩展性。这一方法不仅为LMs的优化提供了有力工具,也为未来对话系统的开发奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



