ChineseNLPcorpus
收藏github2024-05-10 更新2024-05-31 收录
下载链接:
https://github.com/liuhuanyong/ChineseNLPcorpus
下载链接
链接失效反馈官方服务:
资源简介:
中文自然语言处理的语料集合,包括语义词、领域共时、历时语料库、评测语料库等。
A collection of corpora for Chinese natural language processing, including lexical semantic corpora, domain-specific synchronic and diachronic corpora, and evaluation corpora, among others.
创建时间:
2018-12-15
原始信息汇总
数据集概述
数据集名称
- ChineseNLPcorpus
数据集内容
- 包含中文自然语言处理的语料集合,具体包括:
- 语义词
- 领域共时语料库
- 历时语料库
- 评测语料库
数据集分类
- 领域语料库
- 根据所属领域、目的、加工程度、语种、规模等不同标准进行细分。
- 领域词库
- 包括领域特征词库和语法语义词库,根据不同领域和语言单位进行细分。
语言资源构建现状
- 作者构建了约53种语言资源,包括:
- 语义知识库
- 领域词库
- 领域语料库
- 评测语料库
数据集示例
- 以采集公开的人民日报与参考消息为例,提供了1946-2003年的人民日报语料和1957-2002年的参考消息语料。
数据集运行方式
- 使用Scrapy框架进行数据采集,具体命令为:
scrapy crawl travel。
数据集联系方式
- 如有需要,可联系作者获取数据集。
数据集详细分类
语义知识库
| 类型 | 名称 | 介绍 |
|---|---|---|
| 语义词库 | 语法信息词典 | 汉语词语的语法功能分类、词语的语法属性描述 |
| 语义词库 | Hownet义原词典 | 汉语词语义原分类 |
| 语义词库 | 程度副词词典 | 表示程度的词 |
| 语义词库 | 现代汉语词典 | 现代汉语词典, txt版本 |
| 语义词库 | 否定词词典 | 对意义进行反转的词典 |
| 语义词库 | 同义词词林词典 | 哈工大同义词词典 |
| 语义词库 | 反义词词典 | 反义词词表,1.5W对 |
| 语义词库 | 同义词词典 | 同义词词典,5.5W对 |
| 语义词库 | schema概念词典 | 互动百科概念体系,百度百科概念体系 |
| 语义词库 | 停用词 | 自然语言处理用停用词词表 |
领域词库
| 类型 | 名称 | 介绍 |
|---|---|---|
| 领域词库 | 搜狗输入法领域词库 | 超过1W个领域的搜狗输入法词库txt版本 |
| 领域词库 | 职位词典 | 基于百万级拉钩JD网抽取形成的职位词典 |
| 领域词库 | 敏感词词词库 | 敏感词词库,包括政治、反动等词 |
| 领域词库 | 情感词词库 | 大连理工、知网、港中大、台大、boson等公开情感词典 |
领域语料库
| 类型 | 名称 | 介绍 |
|---|---|---|
| 领域语料库 | 人民日报标注语料 | 1998年人民日报分词语料库 |
| 领域语料库 | 20类小说文本集合 | 20个领域(武侠、恐怖等)小说集合,7K+小说文本 |
| 领域语料库 | 字幕网70W字幕文本语料 | 字幕网字幕文件解析,70W字幕文本语料 |
| 领域语料库 | 内涵段子50W等语料 | 基于内涵段子采集,50W短文本 |
| 领域语料库 | 歌词14W语料 | 基于公开歌词网采集,14W首歌曲歌词 |
| 领域语料库 | 职位JD语料 | 基于公开职位采集,213W职位jd |
| 领域语料库 | 古诗词语料 | 唐诗宋词语料集合,10W篇 |
| 领域语料库 | 相声剧本语料 | 基于公开相声剧本网站采集,6K篇 |
| 领域语料库 | 中文维基百科语料 | 中文简体版,98W篇 |
| 领域语料库 | 法务问答语料 | 法务咨询问答对,22W |
| 领域语料库 | 股票问答语料 | 股票相关咨询问答对,10W |
| 领域语料库 | 中英文对齐语料 | 中英文翻译对齐句子,50W |
| 领域语料库 | 携程攻略50W | 携程攻略文本集,50W篇 |
| 领域语料库 | 法律案例语料17W | 17W法律案例语料,带案例标签 |
| 领域语料库 | 法律罪名知识库 | 罪名知识库,867项 |
| 领域语料库 | 疾病与医疗知识库 | 疾病与医疗知识库, 8K+疾病知识库 |
| 领域语料库 | 人民日报历时语料库1946-2003 | 1946-2003,133W篇 |
| 领域语料库 | 参考消息历时语料库1957-2002 | 1957-2002,57W篇 |
| 领域语料库 | 腾讯滚动新闻历时语料库2009-2016 | 腾讯历时滚动新闻(13板块) |
| 领域语料库 | 酒店评论语料 | 酒店评论数据7K条 |
| 领域语料库 | 外卖点评语料 | 外卖评论数据1.2W条 |
| 领域语料库 | 京东商品评论语料 | 10类商品6W条 |
| 领域语料库 | 新浪微博情感语料 | 正文及评论10W条 |
| 领域语料库 | 细粒度微博情感语料 | 喜悦、愤怒、厌恶、低落等标签共36W条 |
| 领域语料库 | 电影评论语料 | 电影评分评论语料,200W+条 |
| 领域语料库 | 餐馆点评语料 | 餐馆点评语料,440W条 |
| 领域语料库 | 亚马逊商品评论语料 | 亚马逊商品评论语料,720W条 |
评测语料库
| 类型 | 名称 | 介绍 |
|---|---|---|
| 评测语料库 | 问句匹配 | 英文question相似问句6.5W对,中文微众银行问句集1000对 |
| 评测语料库 | 命名实体识别 | 中文电子病历命名实体识别、微软MSR命名实体识别5W条 |
| 评测语料库 | 情感分析 | 斯坦福sentibank |
| 评测语料库 | 实体关系抽取 | 中文人物关系数据集、英文SEMEVAL2008评测数据集(NYT,NYTfilter) |
| 评测语料库 | 文本蕴含 | 英文snli,multinli数据集116W,中文文本蕴含数据集100W |
| 评测语料库 | 音乐问句解析 | 音乐问句解析数据集1.2W |
| 评测语料库 | 幽默计算 | 中文幽默计算数据集(幽默类型、幽默等级、隐喻类型、隐喻等级分类等) |
| 评测语料库 | 阅读理解 | squad数据集 |
| 评测语料库 | 知识图谱补全 | 知识图谱链接数据集(FB15K, FB40K, Freebase, WN18,WordNet) |
| 评测语料库 | 中文实体链接 | 基于中文百科知识的实体链接数据集1.3K |
| 评测语料库 | 中文自动问答 | 中文智能问答数据集,两个任务(问句意图分类,航空、酒店、火车客服问答) |
| 评测语料库 | 中文罪行分类 | 法律智能评测数据集,288W |
搜集汇总
数据集介绍

构建方式
ChineseNLPcorpus数据集的构建方式主要基于多源数据采集与分类整理。该数据集通过爬虫技术从公开的人民日报、参考消息等历史新闻网站中采集了大量文本数据,涵盖了1946年至2003年的新闻语料。此外,数据集还整合了多种领域语料库、词库及评测语料库,包括金融、医药、教育等领域的文本数据,以及情感词典、同义词词林、反义词词典等语言资源。通过人工标注与自动化处理相结合的方式,数据集对语料进行了分词、词性标注、命名实体识别等加工,形成了熟语料和生语料的分类。
特点
ChineseNLPcorpus数据集的特点在于其广泛性和多样性。数据集不仅涵盖了多个领域的语料,如金融、医药、教育等,还包含了历时语料库、评测语料库等多种类型的资源。此外,数据集中的语料经过不同程度的加工,既有未经处理的生语料,也有经过人工标注的熟语料。这种多样性使得该数据集能够满足不同自然语言处理任务的需求,如情感分析、命名实体识别、文本分类等。
使用方法
ChineseNLPcorpus数据集的使用方法灵活多样。用户可以根据具体任务需求选择不同类型的语料库进行训练和测试。例如,对于情感分析任务,用户可以选择情感词典和情感语料库;对于命名实体识别任务,可以选择经过标注的熟语料库。数据集的结构化设计使得用户能够方便地进行数据筛选和处理。此外,数据集提供了详细的文档和代码示例,帮助用户快速上手并进行数据处理和模型训练。
背景与挑战
背景概述
ChineseNLPcorpus是由中国科学院软件研究所的研究人员刘焕勇主导构建的一个综合性中文自然语言处理语料库。该数据集涵盖了多种类型的语言资源,包括语义词库、领域词库、领域语料库和评测语料库,旨在为中文自然语言处理任务提供丰富的资源支持。其构建背景源于自然语言处理技术在各领域的广泛应用,尤其是随着深度学习和大数据技术的发展,语言资源的构建和应用变得尤为重要。该数据集不仅为学术研究提供了宝贵的资源,也为工业界的应用提供了坚实的基础。
当前挑战
ChineseNLPcorpus在构建过程中面临多项挑战。首先,语言资源的收集是一个复杂的过程,涉及从多种来源获取数据,并进行去噪和标准化处理。其次,不同来源的语言资源格式不一致,需要进行融合和标准化,以确保数据的一致性和可用性。此外,语言资源的动态更新也是一个重要挑战,随着语言和技术的不断发展,语言资源需要保持实时性,以适应新的应用需求。最后,语言资源的共享与联盟问题也是一个亟待解决的挑战,如何在保护知识产权的同时促进资源的共享和合作,是该领域面临的一个重要问题。
常用场景
经典使用场景
ChineseNLPcorpus数据集的经典使用场景主要集中在自然语言处理(NLP)任务中,如文本分类、情感分析、命名实体识别、语义分析等。该数据集提供了丰富的领域语料库和词库,涵盖了从基础的语法语义词库到复杂的评测语料库,为研究者和开发者提供了多样的资源支持。例如,在情感分析任务中,研究者可以利用该数据集中的情感词典和情感语料库,进行情感极性的识别和分析。
解决学术问题
ChineseNLPcorpus数据集解决了自然语言处理领域中多个关键的学术研究问题。首先,它为语料库的构建和标准化提供了参考,解决了语料收集和格式不一致的问题。其次,通过提供多领域的语料和词库,该数据集支持了跨领域的语言处理研究,如金融、医疗、教育等领域的文本分析。此外,该数据集还促进了语言资源的动态更新和共享,推动了语言资源的标准化和联盟化。
衍生相关工作
ChineseNLPcorpus数据集的发布和应用,催生了一系列相关的经典工作。例如,基于该数据集的情感分析研究,推动了情感计算和情感智能的发展;在语义分析方面,该数据集为语义理解、语义匹配等任务提供了基础数据支持。此外,该数据集还促进了多语言处理和机器翻译的研究,特别是在中英文对齐语料库的基础上,推动了跨语言信息检索和翻译技术的进步。
以上内容由遇见数据集搜集并总结生成



