mariiojastu/lmsys_chat_80_EE_multi_turn
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/mariiojastu/lmsys_chat_80_EE_multi_turn
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从LMSYS-Chat-1M数据集中翻译成爱沙尼亚语的80个提示,涵盖四个类别:规划与调度(planeerimine)、特定格式写作(kirjutamine)、数学(matemaatika)和逻辑推理(arutlemine)。其中30个提示来自之前的翻译数据集smugri-mt-bench,要么是原封不动地包含,要么进行了轻微修改。所有提示都是多轮的,每个提示的第二轮是手动添加的,以引入额外的约束、提供新信息或挑战模型审查其响应。该数据集设计用于人工评估模型生成的响应,任务选择与预定义的评估标准一致。评估协议包括自然性、语法正确性、顺序指令遵循、有用性、正确性和整体偏好等维度。
This dataset consists of 80 prompts translated into Estonian from the LMSYS-Chat-1M dataset. The prompts are drawn from four categories: planning and scheduling (planeerimine), specific format writing (kirjutamine), mathematics (matemaatika), and logical reasoning (arutlemine). Thirty prompts in this dataset are previous translations from smugri-mt-bench and are included either verbatim or with minor modifications. All prompts are multi-turn. A second turn was manually added to each prompt to introduce additional constraints, provide new information, or challenge the model to review its response. The dataset is designed for human evaluation of model-generated responses. Tasks were selected to align with a predefined evaluation rubric. The evaluation protocol includes dimensions like naturalness, grammatical correctness, sequential instruction following, usefulness, correctness, and overall preference.
提供机构:
mariiojastu
搜集汇总
数据集介绍

构建方式
本数据集基于LMSYS-Chat-1M语料库,精选出80条提示语并翻译为爱沙尼亚语构建而成。提示语覆盖四大类别:规划与日程安排、特定格式写作、数学推理及逻辑论证。其中30条提示语源自smugri-mt-bench数据集的既有翻译,其余为全新翻译或经细微调整。所有提示语均设计为多轮对话形式,每一提示的第二轮引入额外约束、新信息或要求模型自我审视,从而增强交互深度与评估维度。
特点
数据集的核心特色在于其面向人工评估的精心设计。评估者需在匿名状态下比较两个模型的回应,依据自然度、语法正确性、顺序指令遵循能力进行评判。针对写作与规划任务,额外考察回应有用性;面向数学与推理任务,则侧重逻辑与数学正确性。最终评估者需给出整体偏好,确保评估体系全面且层次分明,从而有效衡量模型在多轮对话中的综合表现。
使用方法
该数据集专为人工评估模型生成回应质量而设计。评估时,两名评估者分别对比两个匿名模型对80个爱沙尼亚语多轮提示的回应,依据预定义评分标准逐维度打分。评估结果可用于分析模型在非英语语境下的语言自然度、指令执行连贯性及任务特定能力。数据集支持直接加载,每一条目包含原始提示及翻译,便于研究人员复现评估流程或拓展至其他低资源语言场景。
背景与挑战
背景概述
该数据集源自享誉学界与工业界的LMSYS-Chat-1M数据集,由塔尔图大学自然语言处理实验室(tartuNLP)主导创建,于2024年面向大规模语言模型的爱沙尼亚语评估需求精心构建。核心研究问题聚焦于如何在小语种环境下,通过多轮对话范式系统性地评估生成式语言模型的自然度、语法正确性、指令遵循能力及任务准确性。作为首个针对爱沙尼亚语的多轮对话评估基准,该数据集填补了波罗的语系在LLM评估领域的空白,为低资源语言的模型适配与跨语言泛化研究提供了关键测试平台,对推动多语言对话系统评估方法论的发展具有重要影响。
当前挑战
该数据集需应对的领域挑战在于:多轮对话评估既要求模型在连续交互中保持上下文一致性,又需兼顾爱沙尼亚语复杂的形态句法特征(如14个格变化与粘着语结构),而现有主流基准多为单轮单语设计,难以刻画真实交互中的渐进式约束与回溯修正能力。构建过程中,团队面临三重困境:其一,从LMSYS-Chat-1M中筛选80个高价值提示时,需确保四类任务(规划、写作、数学、推理)在爱沙尼亚语语境下的文化适配性;其二,30个既有翻译需经专业语言学家审校以消除机翻痕迹;其三,第二轮对话的编写必须在不泄露评估维度的前提下自然嵌入额外约束,这对提示工程的专业性提出了极高要求。
常用场景
经典使用场景
在低资源语言的自然语言处理研究中,lmsys_chat_80_EE_multi_turn数据集为爱沙尼亚语的多轮对话评估提供了宝贵的基准资源。该数据集精心筛选了来自LMSYS-Chat-1M的80条提示,并翻译为爱沙尼亚语,涵盖规划调度、格式化写作、数学推理与逻辑推理四大核心领域。其经典使用场景在于构建基于人类偏好的模型比较框架,研究者通过邀请母语评估者对两个匿名模型的生成回应进行多维度的对比评判,从而量化不同模型在爱沙尼亚语环境下的表现差异。这种评估范式不仅填补了波罗的海语系在对话系统评估上的数据空白,也为跨语言模型在非英语场景下的能力验证提供了可复现的标准化流程。
衍生相关工作
该数据集衍生了一系列关于低资源语言大模型评估的关键研究工作。基于其与smugri-mt-bench数据集的继承关系,研究者对比分析了翻译质量对评估结果的影响,催生了跨语言提示工程优化方法。部分工作进一步拓展了该数据集的评估维度,将模型响应的事后可解释性、文化适切性纳入考量,形成了更全面的爱沙尼亚语对话评测体系。此外,该数据集的双盲对比范式启发了学者开发自动评估代理(如利用GPT-4模拟人类评判),显著降低了人工标注成本。这些衍生研究共同丰富了对非英语对话系统鲁棒性和实用性的理论认知,为多语言AI系统的公平性评估奠定了方法论基础。
数据集最近研究
最新研究方向
该数据集聚焦于爱沙尼亚语多轮对话场景下的大语言模型评估,通过涵盖规划、写作、数学与逻辑推理四类任务的80条人工翻译提示语,构建了细粒度的评估体系。研究前沿方向为低资源语言(如爱沙尼亚语)中模型输出的自然性、语法正确性、指令遵循能力及任务专用指标(有用性/正确性)的对比分析,同时关联多轮交互中模型自我修正与约束适应能力的评测热点。该工作填补了爱沙尼亚语大模型评估基准的空白,对推动非英语语言的模型鲁棒性研究、促进多语言AI系统的公平性评估具有重要实践意义。
以上内容由遇见数据集搜集并总结生成



