five

Ritter PoS (Ritter Twitter part-of-speech tagging)

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/Ritter_PoS
下载链接
链接失效反馈
官方服务:
资源简介:
人们每天发推文超过 1 亿次,产生了一个嘈杂的、非正式的、但有时包含 140 个字符的信息的信息语料库,以前所未有的方式反映了时代精神。标准 NLP 工具的性能在推文上严重下降。本文通过重新构建 NLP 管道来解决这个问题,从词性标记开始,通过分块,到命名实体识别。与斯坦福 NER 系统相比,我们新颖的 T-NER 系统将 F1 分数提高了一倍。 T-NER 利用推文中固有的冗余来实现这一性能,使用 LabeledLDA 来利用 Freebase 词典作为远程监督的来源。 LabeledLDA 优于协同训练,在十种常见实体类型上将 F1 提高了 25%。
提供机构:
OpenDataLab
创建时间:
2022-09-01
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作