five

MACRONYM

收藏
arXiv2022-02-20 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2202.09694v1
下载链接
链接失效反馈
官方服务:
资源简介:
MACRONYM是一个大规模的多语言和多领域缩略语提取数据集,由俄勒冈大学计算机与信息科学系创建。该数据集包含27,200条来自6种不同语言(英语、丹麦语、西班牙语、法语、波斯语和越南语)和2个领域(法律和科学)的句子。数据集的创建过程涉及从联合国平行语料库和Europarl语料库中收集数据,并通过众包平台招募母语者进行标注。MACRONYM数据集旨在解决多语言和多领域文本处理中缩略语识别的问题,支持如问答和机器翻译等应用。

MACRONYM is a large-scale multilingual and multi-domain acronym extraction dataset created by the Department of Computer and Information Science at the University of Oregon. This dataset contains 27,200 sentences across 6 distinct languages (English, Danish, Spanish, French, Persian and Vietnamese) and 2 domains (law and science). The dataset was constructed by collecting data from the United Nations Parallel Corpus and the Europarl Corpus, with native speakers recruited via crowdsourcing platforms for annotation. The MACRONYM dataset aims to address the problem of acronym recognition in multilingual and multi-domain text processing, supporting applications such as question answering and machine translation.
提供机构:
俄勒冈大学计算机与信息科学系
创建时间:
2022-02-20
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
MACRONYM是一个大规模的多语言和多领域缩略语提取数据集,由俄勒冈大学计算机与信息科学系创建,包含27,200条来自6种语言(英语、丹麦语、西班牙语、法语、波斯语和越南语)和2个领域(法律和科学)的句子。该数据集通过从联合国平行语料库和Europarl语料库收集数据,并由母语者标注,旨在解决多语言和多领域文本处理中的缩略语识别问题,支持问答和机器翻译等应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作