NLPCoreTeam/ruMT-Bench
收藏Hugging Face2024-03-21 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/NLPCoreTeam/ruMT-Bench
下载链接
链接失效反馈官方服务:
资源简介:
ruMT-Bench包含8个不同知识领域(写作、角色扮演、提取、推理、数学、编码、STEM、人文/社会科学)的多轮指导性问题。GPT-4对模型的回答进行1到10的评分,最终得分由整个对话的平均分决定。对于一些需要精确答案的复杂问题(如数学和编码),评分提示中包含参考答案以帮助评估大语言模型的回答。数据集的局限性包括对长回答的偏好、自我增强偏见、在数学和推理问题评分上的限制以及每个类别问题数量的限制。
ruMT-Bench contains multi-turn instructional questions across 8 distinct knowledge domains: writing, role-playing, information extraction, reasoning, mathematics, coding, STEM, and humanities/social sciences. GPT-4 rates the model's responses on a scale of 1 to 10, and the final score is determined by the average score across the entire conversation. For some complex questions requiring precise answers such as those in mathematics and coding, reference answers are included in the scoring prompt to assist in evaluating the responses of large language models. The limitations of the dataset include a preference for long responses, self-enhancement bias, constraints on scoring for mathematical and reasoning questions, and a limited number of questions per category.
提供机构:
NLPCoreTeam
原始信息汇总
ruMT-Bench 数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 问答
- 语言: 俄语
- 标签: 评估
- 美观名称: ruMT-Bench
- 大小类别: 小于1K
数据集内容
- 内容描述: 包含8个不同知识领域的多轮问题,包括写作、角色扮演、提取、推理、数学、编程、STEM、人文/社会科学。
- 评分机制: 使用GPT-4对模型响应进行1到10分的评分,最终得分是整个对话的平均分。对于需要精确答案的复杂问题(如数学和编程),提供参考答案以辅助评估。
数据集配置
- 配置名称: default
- 数据文件:
- 分割: 测试
- 路径: question.jsonl
数据集局限性
- 冗长偏差: LLM评估者偏好较长答案,即使它们不如短答案好。GPT-4在处理长度偏差方面表现更好。
- 自我增强偏差: GPT-4在自我评分时胜率更高,而Claude偏好自身答案25%,GPT-3.5则不偏好自身答案。
- 评估能力限制: 在评估数学和推理问题时能力有限,评估质量受评估者能力限制。
- 样本量限制: 每个类别仅包含10个问题(20个问题),可能无法全面代表所有LLM能力。
搜集汇总
数据集介绍

构建方式
ruMT-Bench数据集的构建,遵循了将多轮指导性问题细分为八个不同知识领域(写作、角色扮演、信息提取、推理、数学、编程、STEM、人文/社会科学)的严谨方法。每一领域的问题均经过精心设计,旨在全面评估语言模型在多轮对话中的表现。该数据集的构建不仅包含了问题,还针对需要精确答案的复杂问题提供了参考答案,以便评估模型的响应。
使用方法
在使用ruMT-Bench数据集进行评估时,用户可依据提供的evaluation code进行模型的评分。该代码详细说明了如何利用ruMT-Bench数据集对语言模型的多轮对话能力进行量化评估,用户只需按照代码指南操作,即可获得模型的评分结果。需要注意的是,正确理解和应用数据集中的参考答案,对于确保评估质量至关重要。
背景与挑战
背景概述
ruMT-Bench数据集,由NLPCoreTeam开发,旨在评估机器学习模型在多轮对话中的表现,特别是在俄语环境下的问答能力。该数据集汇集了八个不同知识领域的指导性多轮问题,并采用GPT-4对模型的回答进行评分。ruMT-Bench自推出以来,在自然语言处理领域内影响深远,为评估LLM(大型语言模型)在俄语问答任务中的表现提供了重要基准。
当前挑战
ruMT-Bench在构建过程中面临多项挑战,包括评估模型回答时存在的 verbosity bias(冗余偏好)和self-enhancement bias(自我增强偏见)。此外,数据集在评估数学和推理问题时能力有限,且每个类别仅包含10个问题,这可能无法全面代表所有LLM的能力。这些问题限制了数据集在精确评估LLM性能方面的应用范围,为未来的研究留下了改进的空间。
常用场景
经典使用场景
在自然语言处理领域,ruMT-Bench数据集以其精致的多轮指导性问题而备受推崇。该数据集覆盖了写作、角色扮演、信息提取、推理、数学、编程、STEM以及人文社会科学等八大知识领域,为评估语言模型的多轮对话能力提供了全面的测试平台。
解决学术问题
ruMT-Bench数据集解决了评估多语言大型语言模型在面对复杂多轮对话时的响应质量和准确性的难题。通过引入GPT-4作为评分工具,该数据集为学术界提供了一种量化和比较不同语言模型表现的有效手段。
实际应用
在实用层面,ruMT-Bench数据集的应用广泛,不仅有助于改进机器翻译和自然语言理解系统的设计,还可以用于指导智能对话系统的开发,从而提升用户交互体验。
数据集最近研究
最新研究方向
在自然语言处理领域,ruMT-Bench数据集作为评估多轮对话中语言模型表现的工具,引起了广泛关注。该数据集特别针对俄罗斯语种,通过八个不同知识领域的多轮问题,对模型进行评分。近期研究聚焦于使用GPT-4对模型回应进行量化评估,尤其是在数学和编码这类需要精确答案的复杂问题中引入参考答案以辅助评估。此研究方向不仅揭示了模型在处理多轮对话中的优势与不足,而且对于评估体系的偏差问题进行了深入探讨,如 verbosity bias和self-enhancement bias,这对于完善和提升LLM评估方法具有重要意义。
以上内容由遇见数据集搜集并总结生成



