AMALGUM
收藏arXiv2020-06-19 更新2024-06-21 收录
下载链接:
https://github.com/gucorpling/amalgum
下载链接
链接失效反馈官方服务:
资源简介:
AMALGUM是一个免费、平衡的多层英语网络语料库,由乔治城大学Corpling实验室的研究人员开发。该数据集包含400万tokens,具有大量高质量的自动标注层,如依赖树、非命名实体标注、指代消解和修辞结构理论中的话语树。数据集通过利用开放的在线数据源,旨在提供一个比小型人工创建的标注数据集更大规模的选择,同时避免诸如不平衡或未知组成、许可问题和低质量的自然语言处理等陷阱。AMALGUM适用于多种应用,包括语料库语言学研究、主动学习、跨标签验证、人机交互/众包和预训练,旨在解决语言处理中的复杂问题,如指代消解和话语解析。
提供机构:
乔治城大学Corpling实验室
创建时间:
2020-06-19



