five

AMALGUM

收藏
arXiv2020-06-19 更新2024-06-21 收录
下载链接:
https://github.com/gucorpling/amalgum
下载链接
链接失效反馈
官方服务:
资源简介:
AMALGUM是一个免费、平衡的多层英语网络语料库,由乔治城大学Corpling实验室的研究人员开发。该数据集包含400万tokens,具有大量高质量的自动标注层,如依赖树、非命名实体标注、指代消解和修辞结构理论中的话语树。数据集通过利用开放的在线数据源,旨在提供一个比小型人工创建的标注数据集更大规模的选择,同时避免诸如不平衡或未知组成、许可问题和低质量的自然语言处理等陷阱。AMALGUM适用于多种应用,包括语料库语言学研究、主动学习、跨标签验证、人机交互/众包和预训练,旨在解决语言处理中的复杂问题,如指代消解和话语解析。
提供机构:
乔治城大学Corpling实验室
创建时间:
2020-06-19
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作