Ritter PoS (Ritter Twitter part-of-speech tagging)
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/Ritter_PoS
下载链接
链接失效反馈官方服务:
资源简介:
人们每天发推文超过 1 亿次,产生了一个嘈杂的、非正式的、但有时包含 140 个字符的信息的信息语料库,以前所未有的方式反映了时代精神。标准 NLP 工具的性能在推文上严重下降。本文通过重新构建 NLP 管道来解决这个问题,从词性标记开始,通过分块,到命名实体识别。与斯坦福 NER 系统相比,我们新颖的 T-NER 系统将 F1 分数提高了一倍。 T-NER 利用推文中固有的冗余来实现这一性能,使用 LabeledLDA 来利用 Freebase 词典作为远程监督的来源。 LabeledLDA 优于协同训练,在十种常见实体类型上将 F1 提高了 25%。
提供机构:
OpenDataLab
创建时间:
2022-09-01



