MOSAICo
收藏MOSAICo: A Multilingual Open-text Semantically Annotated Interlinked Corpus
概述
MOSAICo是一个多语言开放文本语义标注互联语料库,旨在为研究社区提供大规模建模显式语义知识的关键要素。该语料库提供了数亿个银级但高质量的标注,涵盖四个NLU任务和五种语言。
数据集构建
MOSAICo为以下四个语义任务提供高质量的银级标注:
- Word Sense Disambiguation (WSD): 使用ESCHER,一个适应多语言环境的高级WSD系统。
- Semantic Role Labeling (SRL): 使用Multi-SRL,一个高级的多语言依赖和跨度基础SRL系统。
- Semantic Parsing: 使用SPRING,一个适应多语言环境的高级语义解析器。
- Relation Extraction (RE): 使用mREBEL,一个高级的多语言RE系统。
数据集使用
MOSAICo数据以mongoexported JSON文件形式发布,可通过本地MongoDB实例加载。数据包括三个集合:interlanguage-links、pages和annotations。目前,提供了一个英语样本集,包含835个标注文档,而完整的多语言版本即将发布。
引用信息
如果您使用此数据集的任何部分,请考虑引用以下论文: bibtex @inproceedings{conia-etal-2024-mosaico, title = "{MOSAIC}o: a Multilingual Open-text Semantically Annotated Interlinked Corpus", author = "Conia, Simone and Barba, Edoardo and Martinez Lorenzo, Abelardo Carlos and Huguet Cabot, Pere-Llu{\i}s and Orlando, Riccardo and Procopio, Luigi and Navigli, Roberto", booktitle = "Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers)", month = jun, year = "2024", address = "Mexico City, Mexico", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2024.naacl-long.442", pages = "7983--7997", }
许可证
数据集根据Creative Commons Attribution-ShareAlike-NonCommercial 4.0许可发布。




