ChineseNLPcorpus

github2019-11-01 更新2024-05-31 收录

下载链接：

https://github.com/XilongPei/ChineseNLPCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

中文自然语言处理的语料集合，包括语义词、领域共时、历时语料库、评测语料库等。

A corpus collection for Chinese natural language processing, encompassing semantic words, domain-specific synchronic and diachronic corpora, as well as evaluation corpora.

创建时间：

2019-01-11

原始信息汇总

数据集概述

数据集名称

ChineseNLPcorpus

数据集内容

包含多种类型的中文自然语言处理语料，具体包括：
- 语义词库
- 领域词库
- 领域语料库
- 评测语料库

数据集详细分类

语义词库

语法信息词典：汉语词语的语法功能分类、词语的语法属性描述。
Hownet义原词典：汉语词语义原分类。
程度副词词典：表示程度的词。
现代汉语词典：现代汉语词典, txt版本。
否定词词典：对意义进行反转的词典。
同义词词林词典：哈工大同义词词典。
反义词词典：反义词词表，1.5W对。
同义词词典：同义词词典，5.5W对。
schema概念词典：互动百科概念体系，百度百科概念体系。
停用词：自然语言处理用停用词词表。

领域词库

搜狗输入法领域词库：超过1W个领域的搜狗输入法词库txt版本。
职位词典：基于百万级拉钩JD网抽取形成的职位词典。
敏感词词词库：敏感词词库，包括政治、反动等词。
情感词词库：大连理工、知网、港中大、台大、boson等公开情感词典。

领域语料库

人民日报标注语料：1998年人民日报分词语料库。
20类小说文本集合：20个领域(武侠、恐怖等)小说集合，7K+小说文本。
字幕网70W字幕文本语料：字幕网字幕文件解析，70W字幕文本语料。
内涵段子50W等语料：基于内涵段子采集，50W短文本。
歌词14W语料：基于公开歌词网采集，14W首歌曲歌词。
职位JD语料：基于公开职位采集，213W职位jd。
古诗词语料：唐诗宋词语料集合，10W篇。
相声剧本语料：基于公开相声剧本网站采集，6K篇。
中文维基百科语料：中文简体版，98W篇。
法务问答语料：法务咨询问答对，22W。
股票问答语料：股票相关咨询问答对，10W。
中英文对齐语料：中英文翻译对齐句子，50W。
携程攻略50W：携程攻略文本集，50W篇。
法律案例语料17W：17W法律案例语料，带案例标签。
法律罪名知识库：罪名知识库，867项。
疾病与医疗知识库：疾病与医疗知识库, 8K+疾病知识库。
人民日报历时语料库1946-2003：1946-2003，133W篇。
参考消息历时语料库1957-2002：1957-2002，57W篇。
腾讯滚动新闻历时语料库2009-2016：腾讯历时滚动新闻(13板块)。
酒店评论语料：酒店评论数据7K条。
外卖点评语料：外卖评论数据1.2W条。
京东商品评论语料：10类商品6W条。
新浪微博情感语料：正文及评论10W条。
细粒度微博情感语料：喜悦、愤怒、厌恶、低落等标签共36W条。
电影评论语料：电影评分评论语料，200W+条。
餐馆点评语料：餐馆点评语料，440W条。
亚马逊商品评论语料：亚马逊商品评论语料，720W条。

评测语料库

问句匹配：英文question相似问句6.5W对，中文微众银行问句集1000对。
命名实体识别：中文电子病历命名实体识别、微软MSR命名实体识别5W条。
情感分析：斯坦福sentibank。
实体关系抽取：中文人物关系数据集、英文SEMEVAL2008评测数据集(NYT,NYTfilter)。
文本蕴含：英文snli,multinli数据集116W，中文文本蕴含数据集100W。
音乐问句解析：音乐问句解析数据集1.2W。
幽默计算：中文幽默计算数据集（幽默类型、幽默等级、隐喻类型、隐喻等级分类等)。
阅读理解：squad数据集。
知识图谱补全：知识图谱链接数据集(FB15K, FB40K, Freebase, WN18,WordNet)。
中文实体链接：基于中文百科知识的实体链接数据集1.3K。
中文自动问答：中文智能问答数据集，两个任务(问句意图分类，航空、酒店、火车客服问答)。
中文罪行分类：法律智能评测数据集，288W。

数据集用途

用于支持中文自然语言处理任务，包括但不限于语义分析、文本分类、信息抽取等。

数据集获取

如需获取这些语料库，可以联系作者。

免责声明

本项目中所涉及到的报告内容均来源于网上公开资源，对此免责声明。

搜集汇总

数据集介绍

构建方式

ChineseNLPcorpus数据集的构建方式涉及对中文语言资源的广泛搜集与整理，涵盖基础语法词汇、语义词汇、历史语料和评测语料等多个维度。构建过程中，作者采取了从公开渠道获取历史文本资料，如人民日报和参考消息等，并利用网络爬虫技术进行自动化采集。此外，结合人工标注和自动化处理技术，对收集到的语料进行加工，形成结构化的语言资源库。

特点

ChineseNLPcorpus数据集的特点在于其内容的多元性和全面性，不仅包含基础的语言学数据，如语法信息词典、同义词词林等，还包含了丰富的领域特有资源，如职位词典、敏感词词典等。此外，该数据集还包含了大量的历史和现实语料，如不同时期的新闻文本、社交媒体评论等，为研究语言演变和社会文化变迁提供了宝贵的资源。

使用方法

使用ChineseNLPcorpus数据集时，用户可以根据具体的研究需求选择相应的子数据集。对于基础的语言学研究和自然语言处理任务，可以直接使用预标注的语法和语义词库。针对特定领域的研究，可以利用领域词库和领域语料库进行探索。同时，评测语料库可用于评估和改进自然语言处理模型的效果。用户在获取数据集后，需遵循数据使用的相关规范和法律法规，并尊重数据集的版权和知识产权。

背景与挑战

背景概述

ChineseNLPcorpus是一个全面的中文自然语言处理语料集合，涵盖了基本的中文语法和语义词汇集、历史和现代的语料库以及用于评估的语料库。该数据集的创建依托于作者在硕士期间所在的研究机构——国家语言资源监测与研究平面媒体中心，并在实际的语言资源建设工作中不断丰富和完善。它不仅反映了自然语言处理领域对语言资源的需求，而且展现了语言资源在技术发展中的重要作用，对推动中文自然语言处理技术的发展具有显著影响。

当前挑战

在构建ChineseNLPcorpus的过程中，研究团队面临了多项挑战。首先，语言资源的收集需要从多个来源进行整合，并涉及人工去噪的步骤。其次，语言资源的融合和标准化是一个复杂的任务，因为不同来源的语料可能存在格式不对称的问题。此外，语言资源的动态更新和共享也是持续的挑战，需要建立有效的更新机制和共享策略，以保持资源的实时性和广泛性。所解决的领域问题包括但不限于语法和语义分析、命名实体识别、情感分析等，这些领域问题的挑战在于构建能够满足多样化需求的高质量语料库。

常用场景

经典使用场景

ChineseNLPcorpus作为一个综合性的中文自然语言处理语料库，其经典使用场景主要集中于自然语言处理的基础研究和应用开发领域。该数据集提供了丰富的语言资源，包括基础语法词汇、领域共时语料、历史语料以及评测语料，使得研究者在进行分词、词性标注、命名实体识别、情感分析等任务时，能够获得高质量的训练和测试数据，从而提升模型性能。

实际应用

在实际应用中，ChineseNLPcorpus被广泛应用于搜索引擎优化、机器翻译、智能客服、内容审核等多个场景。例如，在搜索引擎中，可以利用该数据集优化搜索算法，提高搜索结果的准确性和相关性；在机器翻译中，可以利用其中提供的双语对齐语料来提升翻译质量；在智能客服系统中，可以利用该数据集进行对话系统的训练，提高客服的智能化水平。

衍生相关工作

基于ChineseNLPcorpus，衍生出了一系列相关的经典工作。包括但不限于构建了专门针对中文的情感分析词典、命名实体识别数据集、文本蕴含数据集等，这些衍生工作不仅丰富了中文自然语言处理领域的资源库，也为相关技术的研发和评测提供了重要基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集