ZhuXian(诛仙)
收藏github2024-04-09 更新2024-05-31 收录
下载链接:
https://github.com/loujie0822/Chinese-NLP-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
小说《诛仙》的POS和分词标注数据
POS and word segmentation annotation data for the novel 'Zhu Xian'
创建时间:
2020-04-22
原始信息汇总
数据集概述
开放领域数据集
-
Word Segmentation and Part-of-Speech
- ZhuXian(诛仙): 小说《诛仙》的POS和分词标注数据。
- CNLC: 国家语言委员会的数据,train: dev: test=8: 1: 1。
-
Named Entity Recognition (NER)
- MSRA: 中文NER任务最常用数据之一。
- Peoples Daily: 中文NER任务最常用数据之二。
- Weibo Data: 中文NER任务最常用数据之三。
-
Text Classification
- CAIL2018: 2018中国‘法研杯’法律智能挑战赛数据,包括268万刑法法律文书,涉及183条罪名,202条法条,刑期长短包括0-25年、无期、死刑。
-
Sentiment Analysis and Rating
- ChnSentiCorp_htl_all: 7000多条酒店评论数据,5000多条正面评论,2000多条负面评论。
- waimai_10k: 某外卖平台收集的用户评价,正面4000条,负面约8000条。
- online_shopping_10_cats: 10个类别,共6万多条评论数据,正、负面评论各约3万条。
- weibo_senti_100k: 10万多条,带情感标注的新浪微博,正负面评论约各5万条。
- simplifyweibo_4_moods: 36万多条,带情感标注的新浪微博,包含4种情感,其中喜悦约20万条,愤怒、厌恶、低落各约5万条。
- dmsc_v2: 28部电影,超70万用户,超200万条评分/评论数据。
- yf_dianping: 24万家餐馆,54万用户,440万条评论/评分数据。
- yf_amazon: 52万件商品,1100多个类目,142万用户,720万条评论/评分数据。
- ez_douban: 5万多部电影,2.8万用户,280万条评分数据。
医学领域数据集
-
Word Segmentation
- AMTTL: 医学语言的分词数据集,来源是医学论坛。
-
Clinical NER
- CNMER: 中文医学实体识别数据集,实体包括身体部位、症状体征、检查、疾病以及治疗。
- CCKS2018数据: 识别疾病和诊断、解剖部位、影像检查、实验室检验、手术和药物6种命名实体。
- CCKS2019数据: 识别中文医学命名实体。
-
Question Answer (QA)
- cMedQA: 医学在线论坛的数据,包含5.4万个问题,及对应的约10万个回答。
- cMedQA2: cMedQA的扩展版,包含约10万个医学相关问题,及对应的约20万个回答。
- webMedQA: 又一个医学在线问答数据集,包含6万个问题和31万个回答,而且包含问题的类别。
-
Others
- medical-books: Open source medical books in LaTeX.
- awesome_Chinese_medical_NLP: 中文医学NLP公开资源整理。
搜集汇总
数据集介绍

构建方式
《诛仙》数据集的构建基于著名小说《诛仙》的文本内容,通过对其进行分词和词性标注(POS)处理,形成了一个用于中文自然语言处理(NLP)的语料库。该数据集的构建过程涉及对小说文本的逐字逐句分析,结合现代NLP技术,对每个词汇进行精确的分词和词性标注,从而为后续的文本分析和模型训练提供了高质量的基础数据。
特点
《诛仙》数据集的主要特点在于其高质量的文本标注和丰富的词汇信息。该数据集不仅包含了大量的中文词汇,还提供了详细的词性标注,这对于中文分词和词性分析任务具有重要意义。此外,由于《诛仙》小说的广泛影响力,该数据集在文学研究和语言模型训练中具有独特的应用价值。
使用方法
《诛仙》数据集可广泛应用于中文自然语言处理的多个领域,包括但不限于分词、词性标注、命名实体识别(NER)等任务。研究者和开发者可以通过加载该数据集,利用其丰富的词汇和标注信息进行模型训练和验证。此外,该数据集还可用于中文语言模型的预训练,以提升模型在中文文本处理任务中的表现。
背景与挑战
背景概述
《诛仙》数据集是由研究人员从著名中文小说《诛仙》中提取的词性标注和分词标注数据集。该数据集的创建旨在为中文自然语言处理(NLP)领域提供一个高质量的文本资源,特别是在词性标注和分词任务中。该数据集的发布时间未明确提及,但其主要研究人员或机构可能包括相关的NLP研究团队或个人,如hankcs。该数据集的核心研究问题是如何在中文文本中准确地进行词性标注和分词,这对于中文信息处理和文本分析具有重要意义。《诛仙》数据集的发布为中文NLP研究提供了宝贵的资源,推动了相关技术的发展和应用。
当前挑战
《诛仙》数据集在构建过程中面临了多个挑战。首先,中文文本的复杂性,尤其是小说中丰富的语言表达和多变的句式结构,增加了词性标注和分词的难度。其次,数据集的标注质量直接影响模型的训练效果,因此需要高精度的标注工具和方法。此外,如何处理小说中的特定词汇和表达方式,如古文词汇和文学修辞,也是一个重要的挑战。最后,数据集的规模和多样性对于模型的泛化能力至关重要,如何在有限的资源下最大化数据集的价值也是一个需要解决的问题。
常用场景
经典使用场景
《诛仙》数据集的经典使用场景主要集中在中文自然语言处理领域,特别是在词性标注和分词任务中。该数据集为研究者提供了丰富的文本资源,能够用于训练和评估中文分词及词性标注模型。通过利用《诛仙》小说中的文本,研究者可以构建高效的模型,以处理中文文本的分词和词性标注问题,从而提升中文信息处理的整体性能。
实际应用
在实际应用中,《诛仙》数据集的应用场景广泛,包括但不限于中文搜索引擎优化、智能客服系统、文本分析工具等。通过使用该数据集训练的分词和词性标注模型,企业可以提升其产品和服务的中文处理能力,从而提供更精准的搜索结果、更智能的客户服务以及更深入的文本分析。这些应用极大地增强了用户体验,并推动了中文信息技术的商业化进程。
衍生相关工作
《诛仙》数据集的发布激发了大量相关研究工作,特别是在中文分词和词性标注领域。许多研究者基于该数据集开发了新的算法和模型,进一步推动了中文自然语言处理技术的发展。此外,该数据集还被用于多种扩展研究,如情感分析、命名实体识别等,为中文NLP领域的多样化研究提供了坚实的基础。
以上内容由遇见数据集搜集并总结生成



