five

wnut16命名实体识别数据集

收藏
魔搭社区2026-05-08 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/iic/wnut16_ner
下载链接
链接失效反馈
官方服务:
资源简介:
# wnut16命名实体识别数据集 ## 数据集概述 wnut16数据集是面向社交媒体的英文命名实体识别数据集。 ### 数据集简介 本数据集包括训练集(2394)、验证集(1000)、测试集(3850),实体类型包括company、facility、loc、movie、musicartist、other、person、product、sportsteam、tvshow。 ### 数据集的格式和结构 数据格式采用conll标准,数据分为两列,第一列是输入句中的词划分,第二列是每个词对应的命名实体类型标签。一个具体case的例子如下: ``` @therealdaftbear O Albert B-person Nobbs I-person ( O Glenn B-person Close)is O a O woman O living O as O a O man O in O order O to O find O work O in O the O harsh O environment O of O 19th-century O Ireland B-loc ``` ## 数据集版权信息 Creative Commons Attribution 4.0 International。 ## 引用方式 ```bib @inproceedings{Ritter11, author = {Ritter, Alan and Clark, Sam and Mausam and Etzioni, Oren}, title = {Named Entity Recognition in Tweets: An Experimental Study}, booktitle = {EMNLP}, year = {2011} } @inproceedings{Ritter12, author = {Ritter, Alan and Mausam and Etzioni, Oren and Clark, Sam}, title = {Open Domain Event Extraction from Twitter}, booktitle = {KDD}, year = {2012} } ```

# wnut16命名实体识别(Named Entity Recognition, NER)数据集 ## 数据集概述 wnut16数据集是面向社交媒体的英文命名实体识别数据集。 ### 数据集简介 本数据集包含训练集(2394条样本)、验证集(1000条样本)、测试集(3850条样本),实体类型涵盖公司(company)、设施(facility)、位置(loc)、电影(movie)、音乐艺人(musicartist)、其他(other)、人物(person)、产品(product)、体育队伍(sportsteam)、电视节目(tvshow)。 ### 数据集的格式与结构 数据格式采用CoNLL标准,数据分为两列,第一列为输入语句的分词单元,第二列为每个分词对应的命名实体类型标签。具体示例如下: @therealdaftbear O Albert B-person Nobbs I-person ( O Glenn B-person Close)is O a O woman O living O as O a O man O in O order O to O find O work O in O the O harsh O environment O of O 19th-century O Ireland B-loc ## 数据集版权信息 知识共享署名4.0国际许可协议(Creative Commons Attribution 4.0 International)。 ## 引用方式 bib @inproceedings{Ritter11, author = {Ritter, Alan and Clark, Sam and Mausam and Etzioni, Oren}, title = {Named Entity Recognition in Tweets: An Experimental Study}, booktitle = {EMNLP}, year = {2011} } @inproceedings{Ritter12, author = {Ritter, Alan and Mausam and Etzioni, Oren and Clark, Sam}, title = {Open Domain Event Extraction from Twitter}, booktitle = {KDD}, year = {2012} }
提供机构:
maas
创建时间:
2022-10-17
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
wnut16是一个专注于社交媒体文本的英语命名实体识别数据集,包含训练集、验证集和测试集,总计7244条样本,涵盖公司、设施、地点等10种实体类型。数据采用CoNLL标准格式,以单词和对应实体标签的两列结构组织。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务