Multilingual_QASem_Datasets

Name: Multilingual_QASem_Datasets
Creator: Bar-Ilan University NLP Lab
Published: 2025-11-04 22:02:56
License: 暂无描述

Hugging Face2025-11-04 更新2025-11-05 收录

下载链接：

https://huggingface.co/datasets/biu-nlp/Multilingual_QASem_Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

Multilingual QASem数据集是一个用于QA-based Semantic Parsing (QASem)的多语言数据集，覆盖了希伯来语、俄语和法语。它包括自动生成的训练数据和人工验证的开发集和测试集，用于评估跨语言QASem解析器。

提供机构：

Bar-Ilan University NLP Lab

创建时间：

2025-11-04

原始信息汇总

Multilingual QASem Dataset 数据集概述

基本信息

数据集名称: Multilingual QASem Dataset
语言: 希伯来语、俄语、法语
多语言性: 多语言
注释创建者: 机器生成、人工标注
规模类别: 10K<n<100K
任务类别: 问答、翻译、表格问答
源数据集: Universal Dependencies
许可证: CC BY 4.0

数据集描述

一个用于基于问答的语义解析(QASem)的多语言数据集，涵盖希伯来语、俄语和法语。包含自动投影的训练数据和手动验证的黄金数据(开发集+测试集)，用于评估跨语言QASem解析器。

核心特征

提供三种类型学不同语言的基于问答的语义表示(QASem)
每个实例对应一个谓词及其相关的问题-答案对，以自然语言表示底层语义角色
适用于训练和评估多语言QASem解析器
用于研究跨语言投影、谓词保留和语义角色对齐

数据结构

列名	描述
`sent_id`	句子标识符
`predicate`	目标语言中的谓词
`predicate_idx`	谓词的词元索引
`question`	生成或标注的问题
`answer`	对应的答案跨度
`type`	谓词类型(VERB/NOM)
`source_data`	原始UD源或分割名称

数据分割

train - 自动投影的QASem数据
gold - 手动验证的开发集+测试集数据

许可证信息

许可证类型: Creative Commons Attribution 4.0 International License (CC BY 4.0)
许可证链接: https://creativecommons.org/licenses/by/4.0/

搜集汇总

数据集介绍

构建方式

在跨语言语义解析研究领域，Multilingual QASem Dataset的构建采用了机器生成与人工标注相结合的双轨策略。其训练集通过自动投影技术，将源语言的语义角色标注迁移至希伯来语、俄语和法语三种类型学差异显著的语言中，有效保留了谓词结构与语义关系。人工校验部分则针对开发集与测试集进行精细标注，确保语义角色边界的准确性与问答对的一致性，所有数据均源自通用依存树库的跨语言对齐语料。

特点

该数据集最显著的特征在于其多语言覆盖的广度与语义标注的深度。涵盖希伯来语、俄语和法语三种形态句法体系迥异的语言，每个实例均包含谓词索引、问题-答案对及谓词类型标注，形成完整的语义角色标注框架。其标注体系支持动词性与名词性谓词的语义解析，通过自然语言问答形式呈现深层语义结构，为研究跨语言谓词保持与语义角色对齐提供了类型学对比基础。

使用方法

研究者可依据标准数据集划分方式，采用训练集进行跨语言QASem解析器的端到端训练，利用自动投影数据增强模型的多语言泛化能力。黄金标注的开发集与测试集适用于评估语义解析器的跨语言迁移性能，通过分析谓词类型识别准确率与问答对生成质量，验证模型在异构语言间的语义角色标注一致性。该数据集还可服务于对比语言学研究，探究不同语系中语义角色系统的表征差异。

背景与挑战

背景概述

多语言问答语义解析数据集（Multilingual QASem Dataset）由自然语言处理研究团队于2020年代初期构建，旨在推动跨语言语义解析技术的发展。该数据集以问答驱动的语义角色标注为核心，覆盖希伯来语、俄语和法语三种类型学差异显著的语言，其理论基础源自问答语义表示框架。通过整合通用依存树库的跨语言投影机制，该资源为语义角色对齐、谓词保留等核心问题提供了系统化标注，显著促进了低资源语言的深层语义理解研究。

当前挑战

该数据集致力于解决跨语言语义解析中谓词类型转换与角色对齐的复杂性挑战，尤其在非英语语言的语义角色标注任务中面临标注资源稀缺的困境。构建过程中需克服自动投影导致的结构失真问题，包括目标语言问答对生成时的语法结构冲突、低资源语言人工验证成本高昂，以及不同语系间语义框架迁移时的信息损耗等关键技术瓶颈。

常用场景

经典使用场景

在跨语言语义解析研究中，Multilingual QASem数据集作为核心资源，广泛用于训练和评估多语言问答式语义解析模型。该数据集通过覆盖希伯来语、俄语和法语三种类型学差异显著的语言，为研究者提供了统一的语义角色标注框架，其中每个实例包含谓词及其对应的问答对，能够系统反映不同语言中谓词与语义角色之间的映射关系。

衍生相关工作

该数据集催生了系列跨语言语义解析的创新研究，例如基于投影一致性约束的联合训练方法、多语言谓词对齐模型等经典工作。这些研究通过利用数据集的类型学多样性，探索了语义角色标注在语言迁移中的泛化能力，为后续构建统一的多语言语义表示框架奠定了理论基础。

数据集最近研究