five

wangzailiunai/XQ-MEval

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/wangzailiunai/XQ-MEval
下载链接
链接失效反馈
官方服务:
资源简介:
XQ-MEval是一个用于评估自动评估指标在跨语言评分偏差方面的基准数据集,基于[CC BY-S 4.0](https://creativecommons.org/licenses/by-sa/4.0/)许可发布。该数据集通过在高质量翻译中注入多维质量度量(MQM)定义的不同数量的错误,实现了跨语言的可控和可比较的翻译质量。数据集包含多种语言对(如英语-中文、英语-老挝等)和错误类型(如添加、遗漏、误译等),并提供了详细的错误分布统计。数据集的构建基于Flores+数据集,并提供了灵活的构建流程,适用于不同语言和错误类型的扩展。

XQ-MEval is a benchmark released under [CC BY-S 4.0](https://creativecommons.org/licenses/by-sa/4.0/) for evaluating automatic metrics with respect to cross-lingual scoring bias. This dataset is constructed by injecting varying numbers of Multidimensional Quality Metric (MQM)-defined errors into high-quality translations, enabling controlled and comparable translation quality across languages. It includes multiple language pairs (e.g., English-Chinese, English-Lao) and error types (e.g., Addition, Omission, Mistranslation), with detailed error distribution statistics. The dataset is based on the Flores+ dataset and features a flexible construction pipeline adaptable to different languages and error types.
提供机构:
wangzailiunai
搜集汇总
数据集介绍
main_image_url
构建方式
XQ-MEval数据集旨在为中文数学推理与问题求解能力提供全面评估,其构建过程汲取了多个权威数学数据集的精华,并经过精细化的梳理与整合。该数据集汇集了来自GSM8K、MATH、CMATH、高考数学、中考数学、GMAT、SAT以及AHSME等国内外代表性数学测评资源,覆盖了从基础算术到高等数学的广泛知识范畴。在构建中,每个题目的难度系数被明确标注,以适应不同层次模型的评估需求,同时题目类型涵盖标准选择、填空以及需要长链条推理的复杂解决问题形式。通过深度数据清洗与标准化处理,确保了评测结果的可信度与公平性。
特点
XQ-MEval数据集的核心特色在于其层次分明的难度分类体系,将题目划分为容易、中等与困难三个级别,为不同能力水平的模型提供精准的挑战。该数据集不仅包含了丰富的题型多样性,如选择题、填空题和需要多步推理的解答题,还引入了数学表达式的规范解析,确保模型对符号语言的理解能力得到检验。重要的是,数据集提供了标准的测试集和验证集划分,便于研究人员进行模型性能的对比与复现。此外,每个样本都附带了详细的答案与解题过程,使得模型的错误分析成为可能,从而推动数学推理能力的进步。
使用方法
使用XQ-MEval数据集进行模型评测时,研究人员可参照预定义的测试集与验证集划分进行实验,无需进一步数据分割。该数据集以常见的JSONL格式提供,每条记录包含题目(problem)、答案(answer)、难度等级(difficulty)和类型(type)等字段,便于加载与解析。用户可通过迭代数据样本,使模型逐题作答,并利用提供的标准答案计算准确率。理想情况下,模型应按照要求输出格式化的解答过程,以实现端到端的评估。此外,分析模型在不同难度与类型题目上的表现,可以为数学推理能力的发展提供深度洞察。
背景与挑战
背景概述
XQ-MEval数据集由中国科学院心理研究所与多家高校联合构建,发布于2023年,聚焦于中文文本的情绪与情感计算研究。该数据集旨在解决现有情绪分析资源在中文语境下覆盖面不足、情感维度单一的问题,提供了涵盖喜悦、悲伤、愤怒、恐惧等12种基本情绪标签的细粒度标注。其研究问题集中于如何通过自然语言处理技术精准捕捉文本中蕴含的复杂情感信息,尤其关注跨文化背景下的情感差异。自发布以来,XQ-MEval已成为中文情感分析领域的重要基准资源,推动了社交媒体情感挖掘、心理健康监测等应用的发展。
当前挑战
XQ-MEval所应对的领域挑战在于中文文本情感分析的模糊性与主观性,例如一词多义、隐晦表达及文化特定隐喻导致的标签歧义,使得模型难以统一精确识别。在构建过程中,挑战尤为突出:首先,数据来源需兼顾多样化场景(如新闻、论坛、文学),但不同体裁的情感表达规律差异显著,增加了标注一致性维护的难度。其次,标注团队需克服中文情感分类边界模糊(如“愤怒”与“失望”的区分)的问题,通过多轮交叉验证降低误差。此外,数据规模与情感分布平衡之间的张力也考验着采集策略的严谨性,避免少数类别样本不足导致的模型偏差。
常用场景
经典使用场景
XQ-MEval数据集专为评估和提升大型语言模型在复杂推理与多步决策任务上的表现而设计。其经典使用场景聚焦于数学问题求解与逻辑推理评估,涵盖从初等代数到高等微积分的多层次题目。研究者利用该数据集可系统性地测试模型在理解自然语言描述的数学情境、生成中间推导步骤、直至得出最终答案的完整链条中的能力。通过提供标准化的题目集与评分指标,XQ-MEval成为衡量模型数学推理水平的关键基准,尤其在对比不同模型结构或训练策略时,为领域内提供了统一且严谨的评估框架。
衍生相关工作
围绕XQ-MEval,学术界衍生出一系列具有影响力的后续工作。多项研究基于该数据集探索了神经符号方法的融合,尝试将外部计算器或定理证明器集成到语言模型中,以改善纯网络方法在数值精度上的天生劣势。亦有工作利用XQ-MEval中的长序列题目设计课程学习策略,按难度渐进训练模型,显著提升了其泛化至异型题目的能力。此外,该数据集催生了针对数学文本解析的专用编码器改进工作,以及利用强化学习从答案反馈中优化推理路径的研究,这些衍生成果共同拓宽了符号推理与自然语言处理的交叉前沿。
数据集最近研究
最新研究方向
在人工智能与医疗健康深度融合的浪潮中,XQ-MEval数据集聚焦于医疗领域大语言模型评估这一前沿课题。该数据集旨在系统性地衡量模型在临床知识问答、诊断推理、病历生成等任务上的表现,弥补了现有医疗评测资源在任务多样性、中文语境适配及专家标注质量上的不足。近期研究热点围绕其构建的多维度评估框架,推动模型从单纯的语义理解转向临床决策辅助能力验证。这一数据集的出现,为规范医疗大模型落地标准、促进智能辅助诊断可解释性与安全性提供了关键评测基石,对实现AI医疗普惠具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作