NER dataset (Chinese)
收藏github2024-05-23 更新2024-05-31 收录
下载链接:
https://github.com/quincyliang/ner-dataset
下载链接
链接失效反馈官方服务:
资源简介:
中英文实体识别数据集,包含MSRA, OntoNotes 4.0, Resume, Weibo等多个子数据集,用于中文实体识别任务。
A Chinese-English Named Entity Recognition Dataset with multiple sub-datasets including MSRA, OntoNotes 4.0, Resume and Weibo, tailored for Chinese named entity recognition tasks.
创建时间:
2018-06-08
原始信息汇总
NLP数据集(通用)
- Huggingface, datasets
- Awesome-Chinese-NLP, Chinese
- CLUEDatasetSearch, Chinese
- funNLP, Chinese
- ChineseNLPCorpus1, Chinese
- ChineseNLPCorpus2, Chinese
- CLUE, Chinese
- Chinese NLP data by ShannonAI, Chinese
- nlp-datasets, Multilingual
- awesome-nlp, Multilingual
分词数据集(中文)
NER数据集(英文)
- various NER dataset
- CoNLL-2003, Offical, CoNLL-2003, other link
- WNUT-2016, Twitter
- OntoNotes-5.0, broadcase news, braodcase conversation, weblogs, magzine genre
- Wikigold
- kaggle
- MUC6
- MUC7
NER数据集(中文)
机器翻译数据集(中英)
- WMT 2020
- AI challenger (英中翻译规模最大的口语领域英中双语对照数据集)
- UM-Corpus: A Large English-Chinese Parallel Corpus
- OpenSubtitles2016
- MultiUN
搜集汇总
数据集介绍

构建方式
在构建NER dataset (Chinese)时,研究者们广泛收集了多种中文命名实体识别(NER)数据集,包括MSRA、OntoNotes 4.0、Resume、Weibo等。这些数据集涵盖了不同领域和文本类型,如新闻、社交媒体和简历等。通过整合这些资源,研究者们创建了一个综合性的中文NER数据集,旨在为自然语言处理领域的研究提供丰富的训练和测试数据。
特点
该数据集的特点在于其多样性和广泛性。它不仅包含了多种文本类型,如新闻、社交媒体和简历,还涵盖了不同领域的命名实体,如人名、地名和组织名等。此外,数据集的标注质量高,确保了实体识别任务的准确性和可靠性。这些特点使得该数据集成为中文NER研究的重要资源。
使用方法
使用NER dataset (Chinese)时,研究者可以通过下载相关数据集文件,并根据需要进行预处理和标注。数据集通常以文本文件或CSV格式提供,每条记录包含文本和对应的实体标签。研究者可以使用这些数据集训练和评估命名实体识别模型,如基于深度学习的模型或传统的机器学习模型。此外,数据集还可以用于其他自然语言处理任务,如信息抽取和文本分类。
背景与挑战
背景概述
命名实体识别(NER)是自然语言处理(NLP)领域中的一个关键任务,旨在从文本中识别和分类命名实体,如人名、地名、组织名等。NER dataset (Chinese) 数据集的创建旨在为中文NER任务提供丰富的训练和测试数据,推动中文NLP技术的发展。该数据集包含了多个子集,如MSRA、OntoNotes 4.0、Resume、Weibo等,这些数据来源于不同的领域和语料库,具有广泛的应用价值。通过这些数据集,研究人员可以开发和评估各种NER模型,从而提高中文文本处理的准确性和效率。
当前挑战
NER dataset (Chinese) 在构建过程中面临多项挑战。首先,中文文本的复杂性,如缺乏明确的分词边界和丰富的语言表达形式,增加了实体识别的难度。其次,不同数据源的异质性,如新闻、社交媒体和简历等,要求模型具备较强的泛化能力。此外,数据标注的一致性和准确性也是一个重要问题,因为人工标注可能存在主观性和误差。最后,数据集的规模和多样性需要不断扩展,以应对日益复杂的NLP任务和应用场景。
常用场景
经典使用场景
在自然语言处理领域,NER(命名实体识别)数据集(中文)被广泛用于识别和分类文本中的实体,如人名、地名、组织名等。该数据集的经典使用场景包括但不限于:在新闻文本中自动提取关键信息,如事件发生地点、涉及人物等;在社交媒体分析中,识别用户提及的品牌、产品或事件;以及在医疗文本中,自动识别疾病名称、药物名称等关键实体。这些应用场景不仅提升了信息提取的效率,还为后续的文本分析和知识图谱构建提供了坚实的基础。
解决学术问题
NER数据集(中文)在学术研究中解决了多个关键问题。首先,它为研究人员提供了一个标准化的基准,用于评估和比较不同命名实体识别算法的性能。其次,该数据集促进了跨语言和跨领域的研究,特别是在中文语境下,命名实体的识别面临独特的挑战,如多义词和语法结构的复杂性。通过提供丰富的标注数据,该数据集有助于推动中文自然语言处理技术的发展,并为全球NLP研究提供了宝贵的资源。
衍生相关工作
基于NER数据集(中文),许多相关的经典工作得以展开。例如,一些研究通过引入深度学习模型,如BERT和Transformer,显著提升了命名实体识别的准确率。此外,跨领域的研究也取得了进展,如将NER技术应用于生物医学文本,自动识别疾病名称和药物信息。还有一些工作专注于提高NER在社交媒体文本中的表现,特别是在处理非正式语言和网络用语时。这些衍生工作不仅丰富了NER技术的应用场景,也推动了中文自然语言处理领域的整体发展。
以上内容由遇见数据集搜集并总结生成



