eriktks/conll2002
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/eriktks/conll2002
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- crowdsourced
language_creators:
- found
language:
- es
- nl
license:
- unknown
multilinguality:
- multilingual
size_categories:
- 10K<n<100K
source_datasets:
- original
task_categories:
- token-classification
task_ids:
- named-entity-recognition
- part-of-speech
paperswithcode_id: conll-2002
pretty_name: CoNLL-2002
dataset_info:
- config_name: es
features:
- name: id
dtype: string
- name: tokens
sequence: string
- name: pos_tags
sequence:
class_label:
names:
'0': AO
'1': AQ
'2': CC
'3': CS
'4': DA
'5': DE
'6': DD
'7': DI
'8': DN
'9': DP
'10': DT
'11': Faa
'12': Fat
'13': Fc
'14': Fd
'15': Fe
'16': Fg
'17': Fh
'18': Fia
'19': Fit
'20': Fp
'21': Fpa
'22': Fpt
'23': Fs
'24': Ft
'25': Fx
'26': Fz
'27': I
'28': NC
'29': NP
'30': P0
'31': PD
'32': PI
'33': PN
'34': PP
'35': PR
'36': PT
'37': PX
'38': RG
'39': RN
'40': SP
'41': VAI
'42': VAM
'43': VAN
'44': VAP
'45': VAS
'46': VMG
'47': VMI
'48': VMM
'49': VMN
'50': VMP
'51': VMS
'52': VSG
'53': VSI
'54': VSM
'55': VSN
'56': VSP
'57': VSS
'58': Y
'59': Z
- name: ner_tags
sequence:
class_label:
names:
'0': O
'1': B-PER
'2': I-PER
'3': B-ORG
'4': I-ORG
'5': B-LOC
'6': I-LOC
'7': B-MISC
'8': I-MISC
splits:
- name: train
num_bytes: 6672173
num_examples: 8324
- name: validation
num_bytes: 1333784
num_examples: 1916
- name: test
num_bytes: 1294156
num_examples: 1518
download_size: 4140690
dataset_size: 9300113
- config_name: nl
features:
- name: id
dtype: string
- name: tokens
sequence: string
- name: pos_tags
sequence:
class_label:
names:
'0': Adj
'1': Adv
'2': Art
'3': Conj
'4': Int
'5': Misc
'6': N
'7': Num
'8': Prep
'9': Pron
'10': Punc
'11': V
- name: ner_tags
sequence:
class_label:
names:
'0': O
'1': B-PER
'2': I-PER
'3': B-ORG
'4': I-ORG
'5': B-LOC
'6': I-LOC
'7': B-MISC
'8': I-MISC
splits:
- name: train
num_bytes: 5308959
num_examples: 15807
- name: validation
num_bytes: 994298
num_examples: 2896
- name: test
num_bytes: 1808862
num_examples: 5196
download_size: 3642241
dataset_size: 8112119
config_names:
- es
- nl
---
# Dataset Card for CoNLL-2002
## Table of Contents
- [Dataset Description](#dataset-description)
- [Dataset Summary](#dataset-summary)
- [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards)
- [Languages](#languages)
- [Dataset Structure](#dataset-structure)
- [Data Instances](#data-instances)
- [Data Fields](#data-fields)
- [Data Splits](#data-splits)
- [Dataset Creation](#dataset-creation)
- [Curation Rationale](#curation-rationale)
- [Source Data](#source-data)
- [Annotations](#annotations)
- [Personal and Sensitive Information](#personal-and-sensitive-information)
- [Considerations for Using the Data](#considerations-for-using-the-data)
- [Social Impact of Dataset](#social-impact-of-dataset)
- [Discussion of Biases](#discussion-of-biases)
- [Other Known Limitations](#other-known-limitations)
- [Additional Information](#additional-information)
- [Dataset Curators](#dataset-curators)
- [Licensing Information](#licensing-information)
- [Citation Information](#citation-information)
- [Contributions](#contributions)
## Dataset Description
- **Homepage:** [homepage](https://www.clips.uantwerpen.be/conll2002/ner/)
- **Repository:** [github](https://github.com/teropa/nlp/tree/master/resources/corpora/conll2002)
- **Paper:** [paper](https://www.aclweb.org/anthology/W02-2024/)
- **Point of Contact:** [Erik Tjong Kim Sang](erikt@uia.ua.ac.be)
### Dataset Summary
Named entities are phrases that contain the names of persons, organizations, locations, times and quantities. Example:
[PER Wolff] , currently a journalist in [LOC Argentina] , played with [PER Del Bosque] in the final years of the seventies in [ORG Real Madrid] .
The shared task of CoNLL-2002 concerns language-independent named entity recognition. We will concentrate on four types of named entities: persons, locations, organizations and names of miscellaneous entities that do not belong to the previous three groups. The participants of the shared task will be offered training and test data for at least two languages. They will use the data for developing a named-entity recognition system that includes a machine learning component. Information sources other than the training data may be used in this shared task. We are especially interested in methods that can use additional unannotated data for improving their performance (for example co-training).
### Supported Tasks and Leaderboards
Named Entity Recognition (NER) is a subtask of Information Extraction. Different NER systems were evaluated as a part of the Sixth Message Understanding Conference in 1995 (MUC6). The target language was English. The participating systems performed well. However, many of them used language-specific resources for performing the task and it is unknown how they would have performed on another language than English.
After 1995 NER systems have been developed for some European languages and a few Asian languages. There have been at least two studies that have applied one NER system to different languages. Palmer and Day [PD97] have used statistical methods for finding named entities in newswire articles in Chinese, English, French, Japanese, Portuguese and Spanish. They found that the difficulty of the NER task was different for the six languages but that a large part of the task could be performed with simple methods. Cucerzan and Yarowsky [CY99] used both morphological and contextual clues for identifying named entities in English, Greek, Hindi, Rumanian and Turkish. With minimal supervision, they obtained overall F measures between 40 and 70, depending on the languages used.
- `named-entity-recognition`: The performance in this task is measured with [F1](https://huggingface.co/metrics/f1) (higher is better). A named entity is correct only if it is an exact match of the corresponding entity in the data.
- `parsing`: The performance in this task is measured with [F1](https://huggingface.co/metrics/f1) (higher is better). A part-of-speech tag is correct only if it is equal to the corresponding tag in the data.
### Languages
There are two languages available : Spanish (es) and Dutch (nl).
## Dataset Structure
### Data Instances
The examples look like this :
```
{'id': '0',
'ner_tags': [5, 6, 0, 0, 0, 0, 3, 0, 0],
'pos_tags': [4, 28, 13, 59, 28, 21, 29, 22, 20],
'tokens': ['La', 'Coruña', ',', '23', 'may', '(', 'EFECOM', ')', '.']
}
```
The original data files within the Dutch sub-dataset have `-DOCSTART-` lines used to separate documents, but these lines are removed here.
Indeed `-DOCSTART-` is a special line that acts as a boundary between two different documents, and it is filtered out in this implementation.
### Data Fields
- `id`: id of the sample
- `tokens`: the tokens of the example text
- `ner_tags`: the NER tags of each token
- `pos_tags`: the POS tags of each token
The POS tags correspond to this list for Spanish:
```
'AO', 'AQ', 'CC', 'CS', 'DA', 'DE', 'DD', 'DI', 'DN', 'DP', 'DT', 'Faa', 'Fat', 'Fc', 'Fd', 'Fe', 'Fg', 'Fh', 'Fia', 'Fit', 'Fp', 'Fpa', 'Fpt', 'Fs', 'Ft', 'Fx', 'Fz', 'I', 'NC', 'NP', 'P0', 'PD', 'PI', 'PN', 'PP', 'PR', 'PT', 'PX', 'RG', 'RN', 'SP', 'VAI', 'VAM', 'VAN', 'VAP', 'VAS', 'VMG', 'VMI', 'VMM', 'VMN', 'VMP', 'VMS', 'VSG', 'VSI', 'VSM', 'VSN', 'VSP', 'VSS', 'Y', 'Z'
```
And this list for Dutch:
```
'Adj', 'Adv', 'Art', 'Conj', 'Int', 'Misc', 'N', 'Num', 'Prep', 'Pron', 'Punc', 'V'
```
The NER tags correspond to this list:
```
"O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-MISC", "I-MISC",
```
The NER tags have the same format as in the chunking task: a B denotes the first item of a phrase and an I any non-initial word. There are four types of phrases: person names (PER), organizations (ORG), locations (LOC) and miscellaneous names (MISC).
It is assumed that named entities are non-recursive and non-overlapping. In case a named entity is embedded in another named entity usually, only the top level entity is marked.
### Data Splits
For both configurations (Spanish and Dutch), there are three splits.
The original splits were named `train`, `testa` and `testb` and they correspond to the `train`, `validation` and `test` splits.
The splits have the following sizes :
| | train | validation | test |
| ----- |-------:|------------:|------:|
| N. Examples (Spanish) | 8324 | 1916 | 1518 |
| N. Examples (Dutch) | 15807 | 2896 | 5196 |
## Dataset Creation
### Curation Rationale
The dataset was introduced to introduce new resources to two languages that were under-served for statistical machine learning at the time, Dutch and Spanish.
[More Information Needed]
### Source Data
The Spanish data is a collection of news wire articles made available by the Spanish EFE News Agency. The articles are from May 2000.
The Dutch data consist of four editions of the Belgian newspaper "De Morgen" of 2000 (June 2, July 1, August 1 and September 1).
#### Initial Data Collection and Normalization
The articles were word-tokenized, information on the exact pre-processing pipeline is unavailable.
#### Who are the source language producers?
The source language was produced by journalists and writers employed by the news agency and newspaper mentioned above.
### Annotations
#### Annotation process
For the Dutch data, the annotator has followed the MITRE and SAIC guidelines for named entity recognition (Chinchor et al., 1999) as well as possible.
#### Who are the annotators?
The Spanish data annotation was carried out by the TALP Research Center of the Technical University of Catalonia (UPC) and the Center of Language and Computation (CLiC) of the University of Barcelona (UB).
The Dutch data was annotated as a part of the Atranos project at the University of Antwerp.
### Personal and Sensitive Information
The data is sourced from newspaper source and only contains mentions of public figures or individuals
## Considerations for Using the Data
### Social Impact of Dataset
Named Entity Recognition systems can be used to efficiently index news text, allowing to easily gather all information pertaining to an organization or individual. Making such resources widely available in languages other than English can support better research and user experience for a larger part of the world's population. At the same time, better indexing and discoverability can also enable surveillance by state actors.
### Discussion of Biases
News text reproduces the biases of society, and any system trained on news data should be cognizant of these limitations and the risk for models to learn spurious correlations in this context, for example between a person's gender and their occupation.
### Other Known Limitations
Users should keep in mind that the dataset only contains news text, which might limit the applicability of the developed systems to other domains.
## Additional Information
### Dataset Curators
The annotation of the Spanish data was funded by the European Commission through the NAMIC project (IST-1999-12392).
### Licensing Information
The licensing status of the data, especially the news source text, is unknown.
### Citation Information
Provide the [BibTex](http://www.bibtex.org/)-formatted reference for the dataset. For example:
```
@inproceedings{tjong-kim-sang-2002-introduction,
title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
author = "Tjong Kim Sang, Erik F.",
booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
year = "2002",
url = "https://www.aclweb.org/anthology/W02-2024",
}
```
### Contributions
Thanks to [@lhoestq](https://github.com/lhoestq) for adding this dataset.
# CoNLL-2002 数据集卡片
## 目录
- [数据集描述](#数据集描述)
- [数据集概述](#数据集概述)
- [支持任务与排行榜](#支持任务与排行榜)
- [语言](#语言)
- [数据集结构](#数据集结构)
- [数据实例](#数据实例)
- [数据字段](#数据字段)
- [数据划分](#数据划分)
- [数据集构建](#数据集构建)
- [构建初衷](#构建初衷)
- [源数据](#源数据)
- [标注](#标注)
- [个人与敏感信息](#个人与敏感信息)
- [数据集使用注意事项](#数据集使用注意事项)
- [数据集的社会影响](#数据集的社会影响)
- [偏差讨论](#偏差讨论)
- [其他已知局限](#其他已知局限)
- [附加信息](#附加信息)
- [数据集策展人](#数据集策展人)
- [许可信息](#许可信息)
- [引用信息](#引用信息)
- [贡献](#贡献)
## 数据集描述
- **主页**:[主页](https://www.clips.uantwerpen.be/conll2002/ner/)
- **代码仓库**:[github](https://github.com/teropa/nlp/tree/master/resources/corpora/conll2002)
- **论文**:[论文](https://www.aclweb.org/anthology/W02-2024/)
- **联系人**:[Erik Tjong Kim Sang](erikt@uia.ua.ac.be)
### 数据集概述
命名实体(Named Entity)是指包含人物、组织、地点、时间与数量名称的短语。示例如下:
> [人物(PER)沃尔夫] 目前是[地点(LOC)阿根廷] 的一名记者,曾于20世纪70年代末与[组织(ORG)皇家马德里] 的[人物(PER)德尔·博斯克] 一同效力。
CoNLL-2002 的共享任务聚焦于与语言无关的命名实体识别(Named Entity Recognition, NER)。本次任务将专注于四类命名实体:人物、地点、组织,以及不属于前三类的其他混合实体。共享任务的参与者将获得至少两种语言的训练与测试数据,用于开发包含机器学习组件的命名实体识别系统。本次共享任务允许使用训练数据之外的信息源,我们尤其关注可利用额外未标注数据提升模型性能的方法(例如协同训练(co-training))。
### 支持任务与排行榜
命名实体识别(NER)是信息抽取的子任务。1995年的第六届消息理解会议(Sixth Message Understanding Conference, MUC6)就对多款NER系统进行了评估,当时的目标语言为英语,参与系统表现优异。但其中多数系统使用了语言专属资源完成任务,尚不清楚它们在非英语语言上的表现如何。
1995年后,针对部分欧洲语言与少量亚洲语言的NER系统相继被开发。至少有两项研究尝试将单一款NER系统应用于多种语言:Palmer与Day[PD97] 使用统计方法在中文、英语、法语、日语、葡萄牙语与西班牙语的新闻文章中识别命名实体,他们发现不同语言的NER任务难度存在差异,但多数任务可通过简单方法完成;Cucerzan与Yarowsky[CY99] 结合形态与上下文线索,在英语、希腊语、印地语、罗马尼亚语与土耳其语中识别命名实体,在最小监督的设置下,他们获得的整体F1值在40至70之间,具体取决于所用语言。
- `命名实体识别(NER)`:该任务的性能通过F1值衡量(数值越高表现越好),仅当命名实体与数据集中对应实体完全匹配时,才算预测正确。
- `词性标注`:该任务的性能通过F1值衡量(数值越高表现越好),仅当词性标注标签与数据集中对应标签完全一致时,才算预测正确。
### 语言
本次数据集包含两种语言:西班牙语(es)与荷兰语(nl)。
## 数据集结构
### 数据实例
数据实例格式如下:
{'id': '0',
'ner_tags': [5, 6, 0, 0, 0, 0, 3, 0, 0],
'pos_tags': [4, 28, 13, 59, 28, 21, 29, 22, 20],
'tokens': ['La', 'Coruña', ',', '23', 'may', '(', 'EFECOM', ')', '.']
}
荷兰语子数据集中的原始数据文件包含用于分隔文档的`-DOCSTART-`行,但在本实现中已将此类行移除。`-DOCSTART-`是用于区分不同文档的特殊行,已在本数据集版本中被过滤。
### 数据字段
- `id`:样本编号
- `tokens`:示例文本的词元(Token)序列
- `ner_tags`:每个词元的命名实体识别标签
- `pos_tags`:每个词元的词性标注(Part-of-Speech, POS)标签
西班牙语的词性标注标签对应如下:
'AO', 'AQ', 'CC', 'CS', 'DA', 'DE', 'DD', 'DI', 'DN', 'DP', 'DT', 'Faa', 'Fat', 'Fc', 'Fd', 'Fe', 'Fg', 'Fh', 'Fia', 'Fit', 'Fp', 'Fpa', 'Fpt', 'Fs', 'Ft', 'Fx', 'Fz', 'I', 'NC', 'NP', 'P0', 'PD', 'PI', 'PN', 'PP', 'PR', 'PT', 'PX', 'RG', 'RN', 'SP', 'VAI', 'VAM', 'VAN', 'VAP', 'VAS', 'VMG', 'VMI', 'VMM', 'VMN', 'VMP', 'VMS', 'VSG', 'VSI', 'VSM', 'VSN', 'VSP', 'VSS', 'Y', 'Z'
荷兰语的词性标注标签对应如下:
'Adj', 'Adv', 'Art', 'Conj', 'Int', 'Misc', 'N', 'Num', 'Prep', 'Pron', 'Punc', 'V'
命名实体识别标签对应如下:
"O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-MISC", "I-MISC"
其中,`B`表示短语的第一个词元,`I`表示短语中非起始的词元,共四类短语:人物(PER)、组织(ORG)、地点(LOC)与混合实体(MISC)。本数据集假设命名实体不存在递归与重叠情况,若某命名实体嵌套于另一命名实体中,通常仅标记顶层实体。
### 数据划分
针对西班牙语与荷兰语两种配置,均包含三类数据划分。原始划分命名为`train`、`testa`与`testb`,分别对应本数据集的`train`(训练集)、`validation`(验证集)与`test`(测试集)划分。各划分的样本量如下表所示:
| | 训练集 | 验证集 | 测试集 |
| ----- |-------:|------------:|------:|
| 西班牙语样本量 | 8324 | 1916 | 1518 |
| 荷兰语样本量 | 15807 | 2896 | 5196 |
## 数据集构建
### 构建初衷
本数据集旨在为当时在统计机器学习领域资源相对匮乏的两种语言——荷兰语与西班牙语——提供新的语料资源。
[更多信息待补充]
### 源数据
西班牙语数据源自西班牙埃菲新闻社发布的2000年5月的新闻专线文章。
荷兰语数据源自2000年的比利时报纸《De Morgen》的四期内容(6月2日、7月1日、8月1日与9月1日)。
#### 初始数据采集与标准化
所有文章均已完成词元分词,具体预处理流程的细节尚未公开。
#### 源语言生产者是谁?
源语言文本由上述新闻机构与报社雇佣的记者与撰稿人创作。
### 标注
#### 标注流程
荷兰语数据的标注人员尽可能遵循了MITRE与SAIC的命名实体识别标注指南(Chinchor et al., 1999)。
#### 标注人员是谁?
西班牙语数据的标注工作由加泰罗尼亚理工大学(UPC)的TALP研究中心与巴塞罗那大学的语言与计算中心(CLiC)完成。
荷兰语数据的标注是安特卫普大学Atranos项目的一部分。
### 个人与敏感信息
本数据集的数据源自新闻来源,仅包含公众人物或个体的提及内容。
## 数据集使用注意事项
### 数据集的社会影响
命名实体识别系统可用于高效索引新闻文本,便于收集与某一组织或个人相关的所有信息。将此类资源推广至非英语语言,可助力全球更多人群的研究与用户体验提升。但与此同时,更高效的索引与可发现性也可能为国家行为体的监视行为提供便利。
### 偏差讨论
新闻文本会重现社会中的固有偏见,基于新闻数据训练的系统应意识到此类局限,以及模型在此类场景下学习到虚假关联的风险,例如将人物性别与其职业绑定。
### 其他已知局限
用户应注意,本数据集仅包含新闻文本,这可能限制开发的系统在其他领域的适用性。
## 附加信息
### 数据集策展人
西班牙语数据的标注工作由欧盟委员会通过NAMIC项目(IST-1999-12392)资助。
### 许可信息
本数据集的数据,尤其是新闻源文本的许可状态尚不明确。
### 引用信息
请使用BibTex格式引用本数据集,示例如下:
@inproceedings{tjong-kim-sang-2002-introduction,
title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
author = "Tjong Kim Sang, Erik F.",
booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
year = "2002",
url = "https://www.aclweb.org/anthology/W02-2024",
}
### 贡献
感谢 [@lhoestq](https://github.com/lhoestq) 为本数据集的添加工作。
---
# 数据集元数据
标注来源:
- 众包
语言数据采集方式:
- 公开采集
语言:
- 西班牙语(es)
- 荷兰语(nl)
许可协议:
- 未知
多语言属性:
- 多语言
样本量区间:
- 10000 < 样本量 < 100000
源数据集:
- 原创
任务类别:
- Token分类(Token Classification)
任务子项:
- 命名实体识别(Named Entity Recognition, NER)
- 词性标注(Part-of-Speech, POS)
PapersWithCode编号: conll-2002
展示名称: CoNLL-2002
数据集信息:
- 配置名称: es
特征:
- 名称: id
数据类型: 字符串
- 名称: tokens
序列类型: 字符串
- 名称: pos_tags
序列类型:
类别标签:
映射关系:
'0': AO
'1': AQ
'2': CC
'3': CS
'4': DA
'5': DE
'6': DD
'7': DI
'8': DN
'9': DP
'10': DT
'11': Faa
'12': Fat
'13': Fc
'14': Fd
'15': Fe
'16': Fg
'17': Fh
'18': Fia
'19': Fit
'20': Fp
'21': Fpa
'22': Fpt
'23': Fs
'24': Ft
'25': Fx
'26': Fz
'27': I
'28': NC
'29': NP
'30': P0
'31': PD
'32': PI
'33': PN
'34': PP
'35': PR
'36': PT
'37': PX
'38': RG
'39': RN
'40': SP
'41': VAI
'42': VAM
'43': VAN
'44': VAP
'45': VAS
'46': VMG
'47': VMI
'48': VMM
'49': VMN
'50': VMP
'51': VMS
'52': VSG
'53': VSI
'54': VSM
'55': VSN
'56': VSP
'57': VSS
'58': Y
'59': Z
- 名称: ner_tags
序列类型:
类别标签:
映射关系:
'0': O
'1': B-PER
'2': I-PER
'3': B-ORG
'4': I-ORG
'5': B-LOC
'6': I-LOC
'7': B-MISC
'8': I-MISC
数据划分:
- 名称: train
字节大小: 6672173
样本数量: 8324
- 名称: validation
字节大小: 1333784
样本数量: 1916
- 名称: test
字节大小: 1294156
样本数量: 1518
下载大小: 4140690
总数据集大小: 9300113
- 配置名称: nl
特征:
- 名称: id
数据类型: 字符串
- 名称: tokens
序列类型: 字符串
- 名称: pos_tags
序列类型:
类别标签:
映射关系:
'0': Adj
'1': Adv
'2': Art
'3': Conj
'4': Int
'5': Misc
'6': N
'7': Num
'8': Prep
'9': Pron
'10': Punc
'11': V
- 名称: ner_tags
序列类型:
类别标签:
映射关系:
'0': O
'1': B-PER
'2': I-PER
'3': B-ORG
'4': I-ORG
'5': B-LOC
'6': I-LOC
'7': B-MISC
'8': I-MISC
数据划分:
- 名称: train
字节大小: 5308959
样本数量: 15807
- 名称: validation
字节大小: 994298
样本数量: 2896
- 名称: test
字节大小: 1808862
样本数量: 5196
下载大小: 3642241
总数据集大小: 8112119
配置名称列表:
- es
- nl
提供机构:
eriktks
原始信息汇总
数据集概述
- 名称: CoNLL-2002
- 语言: 西班牙语 (es), 荷兰语 (nl)
- 许可证: 未知
- 多语言性: 多语言
- 大小: 10K<n<100K
- 源数据: 原始数据
- 任务类别: 词性标注 (part-of-speech), 命名实体识别 (named-entity-recognition)
- 数据集配置:
- es:
- 特征:
- id: 字符串
- tokens: 字符串序列
- pos_tags: 标签序列,包括AO, AQ, CC等
- ner_tags: 标签序列,包括O, B-PER, I-PER等
- 分割:
- train: 8324个样本, 6672173字节
- validation: 1916个样本, 1333784字节
- test: 1518个样本, 1294156字节
- 下载大小: 4140690字节
- 数据集大小: 9300113字节
- 特征:
- nl:
- 特征:
- id: 字符串
- tokens: 字符串序列
- pos_tags: 标签序列,包括Adj, Adv, Art等
- ner_tags: 标签序列,包括O, B-PER, I-PER等
- 分割:
- train: 15807个样本, 5308959字节
- validation: 2896个样本, 994298字节
- test: 5196个样本, 1808862字节
- 下载大小: 3642241字节
- 数据集大小: 8112119字节
- 特征:
- es:
数据集创建
- 注释创建者: 众包
- 语言创建者: 发现
- 来源数据:
- 西班牙语: 来自西班牙EFE新闻社的新闻稿件
- 荷兰语: 来自比利时报纸"De Morgen"的四期
- 注释:
- 西班牙语: 由TALP研究中心和CLiC中心进行
- 荷兰语: 由安特卫普大学的Atranos项目进行
使用数据注意事项
- 社会影响: 可用于高效索引新闻文本,但也可能被用于国家行为者的监视
- 偏见讨论: 新闻文本反映了社会的偏见,模型可能学习到这些偏见
- 其他已知限制: 数据集仅包含新闻文本,可能限制了系统在其他领域的应用
搜集汇总
数据集介绍

构建方式
CoNLL-2002数据集的构建基于对西班牙语和荷兰语新闻文本的标注。该数据集的西班牙语部分来源于西班牙EFE新闻社2000年5月的文章,而荷兰语部分则来自比利时报纸《De Morgen》2000年6月、7月、8月和9月的四期内容。这些文章经过词级分词处理,并由专业团队进行命名实体识别(NER)和词性标注(POS)。西班牙语数据的标注由加泰罗尼亚理工大学TALP研究中心和巴塞罗那大学语言与计算中心完成,荷兰语数据则由安特卫普大学的Atranos项目团队标注。
特点
CoNLL-2002数据集的主要特点在于其多语言性和高质量的标注。该数据集包含西班牙语和荷兰语两种语言,每种语言均提供了详细的命名实体和词性标签。命名实体标签涵盖了人名、组织、地点和其他实体,而词性标签则根据语言的不同提供了相应的分类。此外,数据集的结构设计合理,包含训练、验证和测试三个子集,便于模型训练和评估。
使用方法
CoNLL-2002数据集主要用于命名实体识别(NER)和词性标注(POS)任务。用户可以通过加载数据集的训练、验证和测试子集,分别用于模型训练、调优和性能评估。数据集的标注信息可以直接用于监督学习,帮助模型学习命名实体和词性分类。此外,该数据集还支持多语言模型的开发,用户可以利用不同语言的数据进行跨语言学习或对比研究。
背景与挑战
背景概述
CoNLL-2002数据集由Erik Tjong Kim Sang等人于2002年创建,旨在解决多语言环境下的命名实体识别(NER)问题。该数据集主要包含西班牙语和荷兰语的新闻文章,通过众包方式进行标注,涵盖了人名、组织、地点和其他实体的识别任务。CoNLL-2002的推出填补了当时西班牙语和荷兰语在统计机器学习资源方面的空白,对推动多语言信息提取技术的发展具有重要意义。
当前挑战
CoNLL-2002数据集在构建过程中面临多语言标注一致性和数据多样性的挑战。首先,不同语言的语法结构和文化背景差异导致标注标准难以统一。其次,新闻文本的领域特定性限制了数据集在其他应用场景中的泛化能力。此外,数据集的许可证信息不明确,可能影响其广泛应用和学术引用。
常用场景
经典使用场景
CoNLL-2002数据集的经典使用场景主要集中在命名实体识别(NER)和词性标注(POS)任务上。该数据集为西班牙语和荷兰语提供了丰富的标注数据,使得研究者和开发者能够在多语言环境下训练和评估NER模型。通过使用该数据集,研究者可以开发出能够识别文本中人名、组织、地点和杂项实体的模型,从而提升信息提取的准确性和效率。
解决学术问题
CoNLL-2002数据集解决了多语言命名实体识别的学术研究问题。在数据集发布之前,大多数NER系统主要针对英语进行优化,而其他语言的资源相对匮乏。该数据集通过提供西班牙语和荷兰语的标注数据,填补了这一空白,使得研究者能够在多语言环境下进行NER模型的训练和评估。这不仅推动了多语言信息提取技术的发展,还为跨语言NER系统的研究提供了宝贵的资源。
衍生相关工作
CoNLL-2002数据集的发布催生了一系列相关的经典工作。例如,Palmer和Day在1997年使用统计方法对多种语言的新闻文章进行命名实体识别,展示了跨语言NER的可行性。Cucerzan和Yarowsky在1999年利用形态和上下文线索,在多种语言中识别命名实体,进一步扩展了NER的应用范围。此外,该数据集还启发了后续的CoNLL-2003数据集,进一步推动了NER技术的发展和应用。
以上内容由遇见数据集搜集并总结生成



