MOSAICo

github2024-05-14 更新2024-05-31 收录

下载链接：

https://github.com/SapienzaNLP/mosaico

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个多语言开放文本语义标注互联语料库，旨在为研究社区提供大规模的显式语义知识模型所需的关键要素，为四个NLU任务提供数亿个银级高质量标注，涵盖五种语言。

This is a multilingual open-text semantic annotation interconnected corpus, designed to provide the research community with the essential elements required for large-scale explicit semantic knowledge models. It offers hundreds of millions of silver-standard high-quality annotations for four NLU tasks, covering five languages.

创建时间：

2023-11-12

原始信息汇总

MOSAICo: A Multilingual Open-text Semantically Annotated Interlinked Corpus

概述

MOSAICo是一个多语言开放文本语义标注互联语料库，旨在为研究社区提供大规模建模显式语义知识的关键要素。该语料库提供了数亿个银级但高质量的标注，涵盖四个NLU任务和五种语言。

数据集构建

MOSAICo为以下四个语义任务提供高质量的银级标注：

Word Sense Disambiguation (WSD): 使用ESCHER，一个适应多语言环境的高级WSD系统。
Semantic Role Labeling (SRL): 使用Multi-SRL，一个高级的多语言依赖和跨度基础SRL系统。
Semantic Parsing: 使用SPRING，一个适应多语言环境的高级语义解析器。
Relation Extraction (RE): 使用mREBEL，一个高级的多语言RE系统。

数据集使用

MOSAICo数据以mongoexported JSON文件形式发布，可通过本地MongoDB实例加载。数据包括三个集合：interlanguage-links、pages和annotations。目前，提供了一个英语样本集，包含835个标注文档，而完整的多语言版本即将发布。

引用信息

如果您使用此数据集的任何部分，请考虑引用以下论文： bibtex @inproceedings{conia-etal-2024-mosaico, title = "{MOSAIC}o: a Multilingual Open-text Semantically Annotated Interlinked Corpus", author = "Conia, Simone and Barba, Edoardo and Martinez Lorenzo, Abelardo Carlos and Huguet Cabot, Pere-Llu{\i}s and Orlando, Riccardo and Procopio, Luigi and Navigli, Roberto", booktitle = "Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers)", month = jun, year = "2024", address = "Mexico City, Mexico", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2024.naacl-long.442", pages = "7983--7997", }

许可证

数据集根据Creative Commons Attribution-ShareAlike-NonCommercial 4.0许可发布。

搜集汇总

数据集介绍

构建方式

MOSAICo数据集的构建基于四个语义任务的高质量银标注，涵盖了词义消歧、语义角色标注、语义解析和关系抽取。这些任务分别由ESCHER、Multi-SRL、SPRING和mREBEL四个最先进的系统完成，这些系统均经过多语言环境的适配。通过整合这些系统的输出，MOSAICo为五个语言提供了数亿条高质量的语义标注，从而为大规模语义知识建模提供了基础。

特点

MOSAICo数据集的主要特点在于其多语言性和语义多样性。该数据集不仅覆盖了五个语言，还为四个语义任务提供了丰富的标注，使得研究者能够在不同语言和任务之间进行比较和分析。此外，MOSAICo的开放性和非商业性许可确保了其在学术研究中的广泛应用，推动了语言理解和机器翻译等领域的发展。

使用方法

使用MOSAICo数据集首先需要设置MongoDB环境，通过Docker启动本地MongoDB实例，并将数据集的JSON文件导入到MongoDB中。随后，可以通过安装MOSAICo库来访问和查询数据。该库支持异步编程，并基于beanie ODM进行数据管理，提供了便捷的数据检索和可视化功能。此外，数据集还包含一个Streamlit演示脚本，便于用户直观地查看和分析数据。

背景与挑战

背景概述

MOSAICo数据集是由Simone Conia、Edoardo Barba等研究人员在2024年NAACL会议上提出的，旨在解决多语言自然语言理解（NLU）任务中语义标注数据稀缺的问题。该数据集通过提供数亿条高质量的银标注释，涵盖了词义消歧、语义角色标注、语义解析和关系抽取四个核心任务，跨越五种语言。MOSAICo的创建不仅填补了多语言语义标注数据的空白，还为深度学习模型在语言建模和机器翻译等应用中的知识整合提供了重要资源。该数据集的发布标志着向多语言和多任务公平竞争迈出了重要一步。

当前挑战

MOSAICo数据集在构建过程中面临多项挑战。首先，多语言语义标注的复杂性要求在不同语言和任务之间保持一致性和高质量的标注。其次，数据集的构建涉及多个先进系统的集成，如ESCHER、Multi-SRL、SPRING和mREBEL，这些系统的协同工作增加了技术实现的难度。此外，数据集的规模和多样性要求高效的存储和检索机制，特别是通过MongoDB进行数据管理，这对数据处理和查询性能提出了高要求。最后，确保数据集的开放性和非商业性使用，同时保护数据质量和版权，也是一项重要的挑战。

常用场景

经典使用场景

MOSAICo数据集的经典使用场景主要集中在多语言自然语言理解（NLU）任务中，如词义消歧、语义角色标注、语义解析和关系抽取。通过提供高质量的语义注释，MOSAICo能够帮助研究人员在多语言环境下进行深度学习模型的训练和评估，特别是在需要将文本与显式知识库连接的任务中。

解决学术问题

MOSAICo数据集解决了多语言语义注释稀缺的问题，为研究人员提供了大规模的银标准注释，涵盖了四种NLU任务和五种语言。这不仅有助于提升模型的性能，还为跨语言和跨任务的研究提供了坚实的基础，推动了自然语言处理领域的进步。

衍生相关工作

基于MOSAICo数据集，研究人员已经开展了一系列相关工作，包括改进多语言词义消歧系统、开发新的语义角色标注模型以及探索语义解析的新方法。这些工作不仅验证了MOSAICo数据集的高质量和多样性，还为未来的研究提供了新的方向和灵感。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集