CommonMT
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/tjunlp-lab/commonmt
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含成对的句子,旨在测试模型在处理三种常识推理类型时的表现,尤其是在模棱两可的语境中。在此次评估中,我们从最具挑战性的类型——词汇推理中随机抽取了100个句子,并使用BLEURT-20作为评估工具。
This dataset consists of paired sentences, designed to evaluate models' performance on three types of commonsense reasoning, particularly in ambiguous contexts. In this evaluation, we randomly selected 100 sentences from the most challenging category—lexical reasoning—and employed BLEURT-20 as the evaluation metric.
搜集汇总
数据集介绍

背景与挑战
背景概述
CommonMT是一个用于评估神经机器翻译中常识推理能力的数据集,源自EMNLP 2020论文。它包含三种测试套件:词汇歧义、无上下文句法歧义和有上下文句法歧义,旨在测试翻译模型对常识的理解。数据采用CC BY-SA 4.0许可证,支持开放共享和修改。
以上内容由遇见数据集搜集并总结生成



