MACRONYM

Name: MACRONYM
Creator: 俄勒冈大学计算机与信息科学系
Published: 2022-02-20 07:08:38
License: 暂无描述

arXiv2022-02-20 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2202.09694v1

下载链接

链接失效反馈

官方服务：

资源简介：

MACRONYM是一个大规模的多语言和多领域缩略语提取数据集，由俄勒冈大学计算机与信息科学系创建。该数据集包含27,200条来自6种不同语言（英语、丹麦语、西班牙语、法语、波斯语和越南语）和2个领域（法律和科学）的句子。数据集的创建过程涉及从联合国平行语料库和Europarl语料库中收集数据，并通过众包平台招募母语者进行标注。MACRONYM数据集旨在解决多语言和多领域文本处理中缩略语识别的问题，支持如问答和机器翻译等应用。

MACRONYM is a large-scale multilingual and multi-domain acronym extraction dataset created by the Department of Computer and Information Science at the University of Oregon. This dataset contains 27,200 sentences across 6 distinct languages (English, Danish, Spanish, French, Persian and Vietnamese) and 2 domains (law and science). The dataset was constructed by collecting data from the United Nations Parallel Corpus and the Europarl Corpus, with native speakers recruited via crowdsourcing platforms for annotation. The MACRONYM dataset aims to address the problem of acronym recognition in multilingual and multi-domain text processing, supporting applications such as question answering and machine translation.

提供机构：

俄勒冈大学计算机与信息科学系

创建时间：

2022-02-20

搜集汇总

数据集介绍

背景与挑战

背景概述

MACRONYM是一个大规模的多语言和多领域缩略语提取数据集，由俄勒冈大学计算机与信息科学系创建，包含27,200条来自6种语言（英语、丹麦语、西班牙语、法语、波斯语和越南语）和2个领域（法律和科学）的句子。该数据集通过从联合国平行语料库和Europarl语料库收集数据，并由母语者标注，旨在解决多语言和多领域文本处理中的缩略语识别问题，支持问答和机器翻译等应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集