ZhuXian(诛仙)

github2020-06-16 更新2024-05-31 收录

下载链接：

https://github.com/victorustc/Chinese-NLP-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

小说《诛仙》的POS和分词标注数据

POS and word segmentation annotation data for the novel 'Zhu Xian'

创建时间：

2020-06-16

原始信息汇总

数据集概述

开放领域数据集

Word Segmentation and Part-of-Speech
- ZhuXian(诛仙)：小说《诛仙》的POS和分词标注数据。
- CNLC：国家语言委员会的数据，train: dev: test=8: 1: 1。
Named Entity Recognition (NER)
- MSRA：中文NER任务最常用数据之一。
- Peoples Daily：中文NER任务最常用数据之二。
- Weibo Data：中文NER任务最常用数据之三。
Text Classification
- CAIL2018：2018中国‘法研杯’法律智能挑战赛数据，包括268万刑法法律文书，涉及183条罪名，202条法条，刑期长短包括0-25年、无期、死刑。
Sentiment Analysis and Rating
- ChnSentiCorp_htl_all：7000多条酒店评论数据，5000多条正面评论，2000多条负面评论。
- waimai_10k：某外卖平台收集的用户评价，正面4000条，负面约8000条。
- online_shopping_10_cats：10个类别，共6万多条评论数据，正、负面评论各约3万条。
- weibo_senti_100k：10万多条，带情感标注的新浪微博，正负面评论约各5万条。
- simplifyweibo_4_moods：36万多条，带情感标注的新浪微博，包含4种情感。
- dmsc_v2：28部电影，超70万用户，超200万条评分/评论数据。
- yf_dianping：24万家餐馆，54万用户，440万条评论/评分数据。
- yf_amazon：52万件商品，1100多个类目，142万用户，720万条评论/评分数据。
- ez_douban：5万多部电影，2.8万用户，280万条评分数据。

医疗领域数据集

Word Segmentation
- AMTTL：医学语言的分词数据集，来源是医学论坛。
Clinical NER
- CNMER：中文医学实体识别数据集，实体包括身体部位、症状体征、检查、疾病以及治疗。
- CCKS2018数据：识别疾病和诊断、解剖部位、影像检查、实验室检验、手术和药物6种命名实体。
- CCKS2019数据：识别中文医学命名实体。
Question Answer (QA)
- cMedQA：医学在线论坛的数据，包含5.4万个问题，及对应的约10万个回答。
- cMedQA2：cMedQA的扩展版，包含约10万个医学相关问题，及对应的约20万个回答。
- webMedQA：又一个医学在线问答数据集，包含6万个问题和31万个回答，且包含问题的类别。
Others
- medical-books：Open source medical books in LaTeX。
- awesome_Chinese_medical_NLP：中文医学NLP公开资源整理。

搜集汇总

数据集介绍

构建方式

ZhuXian数据集是基于中国著名小说《诛仙》构建的，主要用于中文自然语言处理任务中的分词和词性标注。该数据集通过对小说文本进行细致的标注，生成了包含分词和词性信息的结构化数据。数据集的构建过程遵循了严格的标注规范，确保了数据的准确性和一致性，为后续的自然语言处理研究提供了高质量的语料支持。

特点

ZhuXian数据集的特点在于其文本来源于中国古典文学作品《诛仙》，具有丰富的文学语言特征和复杂的句式结构。数据集不仅包含了分词信息，还提供了详细的词性标注，涵盖了名词、动词、形容词等多种词性类别。这些特点使得该数据集在中文分词和词性标注任务中具有较高的研究价值，尤其适用于文学文本的处理和分析。

使用方法

ZhuXian数据集的使用方法较为灵活，研究者可以通过GitHub页面获取数据，并根据需要进行预处理。数据集可以直接用于训练和评估中文分词和词性标注模型，支持多种自然语言处理框架。在使用过程中，建议结合具体的任务需求，对数据进行适当的清洗和增强，以提高模型的泛化能力和性能。此外，数据集还可用于文学文本的语义分析和语言风格研究，为中文自然语言处理领域的多样化应用提供了有力支持。

背景与挑战

背景概述

ZhuXian（诛仙）数据集是一个专注于中文自然语言处理（NLP）任务的数据集，特别是针对词性标注（POS）和分词任务。该数据集基于中国著名网络小说《诛仙》构建，由Hankcs团队在GitHub上发布，旨在为中文文本处理提供高质量的标注数据。作为中文NLP领域的重要资源之一，ZhuXian数据集为研究者提供了丰富的语料库，支持中文分词和词性标注模型的训练与评估。其创建时间可追溯至2010年代初期，反映了当时中文NLP领域对高质量标注数据的迫切需求。该数据集的出现，不仅推动了中文分词和词性标注技术的发展，还为后续的中文NLP研究奠定了坚实的基础。

当前挑战

ZhuXian数据集在解决中文分词和词性标注任务时面临多重挑战。首先，中文作为一种高度依赖上下文的语言，其分词和词性标注的准确性受到上下文语义的显著影响，这增加了模型训练的复杂性。其次，小说文本中包含了大量的专有名词、成语和古汉语词汇，这些词汇在标准语料库中较为罕见，导致模型在处理这些词汇时表现不佳。此外，数据集的构建过程中，标注的一致性和准确性也是一个重要挑战，尤其是在处理长篇小说文本时，人工标注的误差可能会对模型性能产生负面影响。最后，数据集的规模相对有限，可能无法充分覆盖中文语言的多样性，限制了模型在实际应用中的泛化能力。

常用场景

经典使用场景

在自然语言处理领域，ZhuXian数据集主要用于中文分词和词性标注的研究。该数据集以经典小说《诛仙》为文本基础，提供了丰富的语言样本，能够有效支持中文语言模型的训练和评估。通过该数据集，研究者可以深入探讨中文文本处理中的分词准确性和词性标注的精确度问题。

衍生相关工作

基于ZhuXian数据集，研究者们开发了多种中文分词和词性标注工具，如Jieba、THULAC等。这些工具在实际应用中表现出色，极大地推动了中文自然语言处理技术的发展。此外，该数据集还催生了一系列关于中文文本处理的研究论文，进一步丰富了该领域的学术成果。

数据集最近研究