Chinese-NLP-Corpus

github2020-09-04 更新2024-05-31 收录

下载链接：

https://github.com/lyzinfo/Chinese-NLP-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

中文NLP语料库集合，包括开放领域、命名实体识别、文本分类、情感分析和评分等多个领域的数据集。

A collection of Chinese NLP corpora, encompassing datasets from various domains such as open-domain, named entity recognition, text classification, sentiment analysis, and scoring.

创建时间：

2020-09-04

原始信息汇总

数据集概述

开放领域

Word Segmentation and Part-of-Speech
- ZhuXian(诛仙)：小说《诛仙》的POS和分词标注数据。
- CNLC：国家语言委员会的数据，train: dev: test=8: 1: 1。
Named Entity Recognition (NER)
- MSRA：中文NER任务最常用数据之一。
- Peoples Daily：中文NER任务最常用数据之二。
- Weibo Data：中文NER任务最常用数据之三。
Text Classification
- CAIL2018：2018中国‘法研杯’法律智能挑战赛数据，包括268万刑法法律文书，涉及183条罪名，202条法条，刑期长短包括0-25年、无期、死刑。
- CSL - Classification：中文科学文献数据集，根据国家自然科学基金进行学科分类。
Sentiment Analysis and Rating
- ChnSentiCorp_htl_all：7000多条酒店评论数据，5000多条正面评论，2000多条负面评论。
- waimai_10k：某外卖平台用户评价，正面4000条，负面约8000条。
- online_shopping_10_cats：10个类别，共6万多条评论数据，正、负面评论各约3万条。
- weibo_senti_100k：10万多条带情感标注的新浪微博，正负面评论约各5万条。
- simplifyweibo_4_moods：36万多条带情感标注的新浪微博，包含4种情感。
- dmsc_v2：28部电影，超70万用户，超200万条评分/评论数据。
- yf_dianping：24万家餐馆，54万用户，440万条评论/评分数据。
- yf_amazon：52万件商品，1100多个类目，142万用户，720万条评论/评分数据。
- ez_douban：5万多部电影，2.8万用户，280万条评分数据。

医疗领域

Word Segmentation
- AMTTL：医学语言的分词数据集，数据偏向open。
Clinical NER
- CNMER：中文医学实体识别数据集，实体包括身体部位、症状体征、检查、疾病以及治疗。
Question Answer (QA)
- cMedQA：医学在线论坛的数据，包含5.4万个问题，及对应的约10万个回答。
- cMedQA2：cMedQA的扩展版，包含约10万个医学相关问题，及对应的约20万个回答。
- webMedQA：医学在线问答数据集，包含6万个问题和31万个回答，包含问题的类别。
Others
- medical-books：Open source medical books in LaTeX。
- awesome_Chinese_medical_NLP：中文医学NLP公开资源整理。
- Chinese_medical_NLP：医疗NLP领域评测数据集与论文等相关资源。

搜集汇总

数据集介绍

构建方式

Chinese-NLP-Corpus数据集的构建方式主要依赖于多个公开的中文自然语言处理资源，涵盖了法律、社交媒体、评论等多个开放领域，以及医学领域的专业语料。数据集通过整合来自不同来源的语料库，如小说《诛仙》的分词和词性标注数据、国家语言委员会的语料库、以及多个中文命名实体识别和文本分类任务的数据集。此外，医学领域的语料库则通过医学论坛、临床数据和医学问答数据等多渠道收集，确保了数据的多样性和专业性。

使用方法

Chinese-NLP-Corpus数据集的使用方法多样，适用于多种自然语言处理任务。用户可以根据具体任务需求，选择相应的子数据集进行模型训练和评估。例如，对于分词和词性标注任务，可以使用《诛仙》或国家语言委员会的语料库；对于命名实体识别任务，可以选择MSRA或People's Daily数据集；对于文本分类任务，CAIL2018和CSL数据集提供了丰富的法律和科学文献数据。医学领域的语料库则可用于医学命名实体识别和问答系统的开发。用户可以通过GitHub页面获取数据，并参考相关文献和比赛官网进行深入研究和应用。

背景与挑战

背景概述

Chinese-NLP-Corpus数据集是一个专注于中文自然语言处理（NLP）任务的综合性语料库，涵盖了从开放领域到医疗领域的多种数据类型。该数据集由多个研究机构和开源社区共同维护，旨在为中文NLP研究提供丰富的资源支持。其创建时间可追溯至2018年，主要贡献者包括Hankcs、SophonPlus等知名研究团队。数据集的核心研究问题包括中文分词、词性标注、命名实体识别、文本分类、情感分析等，广泛应用于法律、社交媒体、医学等领域的研究与开发。该数据集对推动中文NLP技术的发展具有重要意义，尤其是在处理复杂语言现象和跨领域应用方面展现了强大的影响力。

当前挑战

Chinese-NLP-Corpus数据集在解决中文NLP任务时面临多重挑战。首先，中文语言的复杂性和多样性使得分词、词性标注等基础任务难度较高，尤其是在处理开放领域文本时，语言风格的多变性增加了标注和模型训练的复杂性。其次，数据集的构建过程中，数据来源的多样性和质量参差不齐，导致数据清洗和标注工作耗时且容易引入噪声。此外，医疗领域的语料库构建面临专业术语的准确识别和标注问题，这对标注人员的专业知识提出了较高要求。最后，数据集的更新和维护需要持续的资源投入，以确保其能够适应不断变化的语言环境和研究需求。

常用场景

经典使用场景

Chinese-NLP-Corpus数据集广泛应用于中文自然语言处理领域，特别是在开放域和医学领域的文本分析中。该数据集包含了丰富的语料资源，如法律文书、社交媒体评论、医学论坛问答等，为研究者提供了多样化的数据支持。经典的使用场景包括中文分词、词性标注、命名实体识别、文本分类以及情感分析等任务。

解决学术问题

Chinese-NLP-Corpus数据集为中文自然语言处理研究提供了高质量的基础数据，解决了诸如中文分词歧义、命名实体识别中的领域适应性问题、文本分类中的多标签分类挑战以及情感分析中的情感极性判断等学术难题。通过该数据集，研究者能够更深入地探索中文语言特性，推动相关算法和模型的优化与创新。

实际应用

在实际应用中，Chinese-NLP-Corpus数据集被广泛用于智能客服、法律文书分析、社交媒体监控、医学信息抽取等领域。例如，在法律领域，该数据集支持罪名预测和法条推荐；在医学领域，其临床命名实体识别数据为电子病历分析和医学知识图谱构建提供了重要支持。这些应用显著提升了相关行业的自动化水平和决策效率。

数据集最近研究