AMALGUM (A Machine Annotated Lookalike of GUM)
收藏OpenDataLab2026-05-31 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/AMALGUM
下载链接
链接失效反馈官方服务:
资源简介:
AMALGUM 是一个机器注释的多层语料库,其设计和注释层与 GUM 相同,但要大得多(大约 4M 令牌)。该语料库的目标是缩小高质量、注释丰富但较小的数据集与通常从 Web 上抓取的较大但注释较浅的语料库之间的差距。
AMALGUM is a machine-annotated multilayer corpus with the same design and annotation layers as GUM, but significantly larger (approximately 4M tokens). This corpus aims to bridge the gap between high-quality, richly annotated but relatively small datasets and larger but shallowly annotated corpora typically scraped from the Web.
提供机构:
OpenDataLab
创建时间:
2022-06-07
搜集汇总
数据集介绍

背景与挑战
背景概述
AMALGUM是一个由乔治城大学于2020年发布的机器注释多层英语网络语料库,规模约为400万令牌,旨在弥补高质量小数据集与大规模浅注释语料库之间的差距,采用CC BY 4.0许可证。
以上内容由遇见数据集搜集并总结生成



