five

conll2002

收藏
huggingface.co2025-03-24 收录
下载链接:
https://huggingface.co/datasets/eriktks/conll2002
下载链接
链接失效反馈
官方服务:
资源简介:
Named entities are phrases that contain the names of persons, organizations, locations, times and quantities. Example: [PER Wolff] , currently a journalist in [LOC Argentina] , played with [PER Del Bosque] in the final years of the seventies in [ORG Real Madrid] . The shared task of CoNLL-2002 concerns language-independent named entity recognition. We will concentrate on four types of named entities: persons, locations, organizations and names of miscellaneous entities that do not belong to the previous three groups. The participants of the shared task will be offered training and test data for at least two languages. They will use the data for developing a named-entity recognition system that includes a machine learning component. Information sources other than the training data may be used in this shared task. We are especially interested in methods that can use additional unannotated data for improving their performance (for example co-training). The train/validation/test sets are available in Spanish and Dutch. For more details see https://www.clips.uantwerpen.be/conll2002/ner/ and https://www.aclweb.org/anthology/W02-2024/

命名实体是指包含人名、组织名、地名、时间和数量等信息的短语。 示例: [人物 Wolff],目前是一名记者,在[地点 阿根廷]与[人物 Del Bosque]在七十年代末效力于[组织 Real Madrid]。 CoNLL-2002的共享任务涉及语言无关的命名实体识别。 我们将集中于四种类型的命名实体:人物、地点、组织和不属于前三种的杂项实体名称。 共享任务的参与者将获得至少两种语言的训练和测试数据。 他们将利用这些数据开发包含机器学习组件的命名实体识别系统。 在此共享任务中,除了训练数据之外,还可以使用其他信息源。 我们特别关注能够利用额外的未标注数据来提升其性能的方法(例如协同训练)。 训练/验证/测试集提供西班牙语和荷兰语版本。 更多详细信息请参见 https://www.clips.uantwerpen.be/conll2002/ner/ 和 https://www.aclweb.org/anthology/W02-2024/。
提供机构:
huggingface.co
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作