Chinese-NLP-Corpus
收藏github2024-05-21 更新2024-05-31 收录
下载链接:
https://github.com/OYE93/Chinese-NLP-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
中文NLP语料库集合,包括开放领域、命名实体识别、文本分类、情感分析和评分等多个领域的数据集。
A collection of Chinese NLP corpora, encompassing datasets from various domains such as open-domain, named entity recognition, text classification, sentiment analysis, and scoring.
创建时间:
2018-12-28
原始信息汇总
数据集概述
Open Domain
-
Word Segmentation and Part-of-Speech
- ZhuXian(诛仙): 小说《诛仙》的POS和分词标注数据。
- CNLC: 国家语言委员会的数据,train: dev: test=8: 1: 1。
-
Named Entity Recognition (NER)
- MSRA: 中文NER任务最常用数据之一。
- Peoples Daily: 中文NER任务最常用数据之二。
- Weibo Data: 中文NER任务最常用数据之三。
-
Text Classification
- CAIL2018: 2018中国‘法研杯’法律智能挑战赛数据,包括268万刑法法律文书,涉及183条罪名,202条法条,刑期0-25年、无期、死刑。
- CSL - Classification: 中文科学文献数据集,根据国家自然科学基金进行学科分类。
-
Sentiment Analysis and Rating
- ChnSentiCorp_htl_all: 7000多条酒店评论数据,5000多条正面评论,2000多条负面评论。
- waimai_10k: 某外卖平台用户评价,正面4000条,负面约8000条。
- online_shopping_10_cats: 10个类别,共6万多条评论数据,正、负面评论各约3万条。
- weibo_senti_100k: 10万多条带情感标注的新浪微博,正负面评论约各5万条。
- simplifyweibo_4_moods: 36万多条带情感标注的新浪微博,包含4种情感。
- dmsc_v2: 28部电影,超70万用户,超200万条评分/评论数据。
- yf_dianping: 24万家餐馆,54万用户,440万条评论/评分数据。
- yf_amazon: 52万件商品,1100多个类目,142万用户,720万条评论/评分数据。
- ez_douban: 5万多部电影,2.8万用户,280万条评分数据。
Medical Domain
-
Bechmark
- ChineseBLUE: 阿里巴巴的Chinese Biomedical Language Understanding Evaluation benchmark。
-
Word Segmentation
- AMTTL: 医学语言的分词数据集,偏向open。
-
Clinical NER
- CNMER: 中文医学实体识别数据集,实体包括身体部位、症状体征、检查、疾病以及治疗。
- CCKS2018数据: 识别疾病和诊断、解剖部位、影像检查、实验室检验、手术和药物6种命名实体。
- CCKS2019数据: 识别中文医学命名实体。
-
Question Answer (QA)
- cMedQA: 医学在线论坛的数据,包含5.4万个问题,及对应的约10万个回答。
- cMedQA2: cMedQA的扩展版,包含约10万个医学相关问题,及对应的约20万个回答。
- webMedQA: 又一个医学在线问答数据集,包含6万个问题和31万个回答,而且包含问题的类别。
-
Others
- medical-books: Open sourece medical books in LaTeX。
- awesome_Chinese_medical_NLP: 中文医学NLP公开资源整理。
- Chinese_medical_NLP: 医疗NLP领域(主要关注中文)评测数据集与论文等相关资源。
搜集汇总
数据集介绍

构建方式
Chinese-NLP-Corpus数据集的构建方式体现了多源数据的集成与分类。该数据集从多个公开资源中收集并整合了中文自然语言处理领域的各类数据,包括法律、社交媒体、评论等开放领域数据,以及医学领域的专业数据。数据集的构建过程中,特别注重了数据的多样性和代表性,涵盖了分词与词性标注、命名实体识别、文本分类、情感分析与评分等多个任务。此外,数据集还通过严格的分类和标注,确保了数据的高质量和适用性。
特点
Chinese-NLP-Corpus数据集的特点在于其广泛的应用领域和丰富的数据类型。该数据集不仅包含了大量的开放领域数据,如法律文书、社交媒体评论等,还涵盖了医学领域的专业数据,如医学术语、临床命名实体识别等。数据集的多样性使其能够支持多种自然语言处理任务的研究和应用,如文本分类、情感分析、命名实体识别等。此外,数据集的高质量和大规模特性,使其成为研究和开发中文自然语言处理模型的理想选择。
使用方法
使用Chinese-NLP-Corpus数据集时,用户可以根据具体的研究或应用需求,选择合适的数据子集进行下载和处理。数据集提供了详细的分类和标注信息,用户可以通过这些信息快速定位所需数据。在使用过程中,建议用户首先了解数据集的结构和内容,然后根据任务需求进行数据预处理和模型训练。数据集的多样性和高质量特性,使其适用于多种自然语言处理任务的模型训练和评估,如文本分类、情感分析、命名实体识别等。
背景与挑战
背景概述
Chinese-NLP-Corpus,一个汇集了多种中文自然语言处理(NLP)数据集的资源库,由多位研究人员和机构共同创建。该数据集涵盖了从法律、社交媒体到医疗等多个开放领域的文本数据,包括分词与词性标注、命名实体识别、文本分类、情感分析等多种任务。其核心研究问题在于如何利用这些多样化且大规模的数据集,推动中文NLP技术的发展,特别是在处理复杂中文语境和特定领域文本时。该数据集的创建对中文NLP领域的研究具有重要影响,为研究人员提供了丰富的实验材料和基准数据,促进了相关技术的进步和应用。
当前挑战
Chinese-NLP-Corpus在构建过程中面临多项挑战。首先,数据集的多样性带来了数据格式和标注标准的不统一,增加了数据预处理的复杂性。其次,特定领域的文本,如法律和医疗,具有高度专业性和复杂性,对模型的理解和处理能力提出了更高要求。此外,大规模数据集的管理和维护,包括数据的更新和质量控制,也是一项持续的挑战。最后,如何确保数据集的开放性和可访问性,同时保护用户隐私和数据安全,是该数据集在实际应用中必须解决的问题。
常用场景
经典使用场景
Chinese-NLP-Corpus数据集在自然语言处理领域中具有广泛的应用,特别是在中文文本的分词、词性标注、命名实体识别(NER)、文本分类和情感分析等任务中。例如,数据集中的MSRA和People's Daily数据常用于中文NER任务,而CAIL2018数据集则被广泛用于法律智能挑战赛中的罪名预测和法条推荐任务。此外,ChnSentiCorp_htl_all和weibo_senti_100k数据集在中文情感分析研究中占据了重要地位。
解决学术问题
Chinese-NLP-Corpus数据集解决了中文自然语言处理中的多个关键学术问题,如中文分词的准确性、词性标注的一致性、命名实体识别的精确度以及文本分类和情感分析的模型性能。这些数据集为研究人员提供了丰富的标注数据,有助于推动中文NLP技术的发展和应用,尤其是在法律、社交媒体和医疗等特定领域的深入研究。
衍生相关工作
基于Chinese-NLP-Corpus数据集,许多相关的经典工作得以展开。例如,Zhang等人基于cMedQA数据集开发了中文医学问答匹配模型,而Lu等人则利用CNMER数据集进行了中文临床命名实体识别的研究。这些工作不仅推动了中文NLP技术的发展,也为特定领域的应用提供了坚实的技术基础。
以上内容由遇见数据集搜集并总结生成



