ChineseNLPCorpus

github2019-02-25 更新2024-05-31 收录

下载链接：

https://github.com/zihuitang/ChineseNLPCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

中文自然语言处理的语料集合，包括语义词、领域共时、历时语料库、评测语料库等。

A corpus collection for Chinese natural language processing, encompassing semantic lexicons, domain-specific synchronic and diachronic corpora, as well as evaluation corpora.

创建时间：

2019-02-11

原始信息汇总

数据集概述

数据集名称

ChineseNLPcorpus

数据集内容

包含中文自然语言处理的语料集合，具体包括：
- 语义词
- 领域共时语料库
- 历时语料库
- 评测语料库

数据集分类

领域语料库
- 根据所属领域，包括金融、医药、教育、文学等领域语料。
- 根据所属目的，包括评测语料和工具语料。
- 根据语料加工程度，分为熟语料和生语料。
- 根据语料语种，分为单语语料和多语语料。
- 根据语料规模，分为小型、中型、大型语料库。
领域词库
- 领域特征词库
- 语法语义词库

数据集实践

本项目以采集公开的人民日报与参考消息为例进行历时的新闻采集，涵盖1946-2003年的人民日报语料和1957-2002年的参考消息语料。

数据集构建现状

作者构建了约53种语言资源，包括：
- 语义知识库
  - 语法信息词典
  - Hownet义原词典
  - 程度副词词典
  - 现代汉语词典
  - 否定词词典
  - 同义词词林词典
  - 反义词词典
  - 同义词词典
  - schema概念词典
  - 停用词
- 领域词库
  - 搜狗输入法领域词库
  - 职位词典
  - 敏感词词库
  - 情感词词库
- 领域语料库
  - 人民日报标注语料
  - 20类小说文本集合
  - 字幕网70W字幕文本语料
  - 内涵段子50W等语料
  - 歌词14W语料
  - 职位JD语料
  - 古诗词语料
  - 相声剧本语料
  - 中文维基百科语料
  - 法务问答语料
  - 股票问答语料
  - 中英文对齐语料
  - 携程攻略50W
  - 法律案例语料17W
  - 法律罪名知识库
  - 疾病与医疗知识库
  - 人民日报历时语料库1946-2003
  - 参考消息历时语料库1957-2002
  - 腾讯滚动新闻历时语料库2009-2016
  - 酒店评论语料
  - 外卖点评语料
  - 京东商品评论语料
  - 新浪微博情感语料
  - 细粒度微博情感语料
  - 电影评论语料
  - 餐馆点评语料
  - 亚马逊商品评论语料
- 评测语料库
  - 问句匹配
  - 命名实体识别
  - 情感分析
  - 实体关系抽取
  - 文本蕴含
  - 音乐问句解析
  - 幽默计算
  - 阅读理解
  - 知识图谱补全
  - 中文实体链接
  - 中文自动问答
  - 中文罪行分类

数据集总结

本项目收集了四个大类共53小类的语言资源数据集，涵盖了广泛的领域和应用。

搜集汇总

数据集介绍

构建方式

ChineseNLPCorpus数据集的构建主要依托于对各类语言资源的整合与分类，涵盖了基础语义词、领域共时与历时语料库、评测语料库等。通过采集公开的历史报纸、小说文本、歌词、职位描述等多样化的文本资源，经过人工标注和机器处理，形成了结构化和标准化的数据集。

特点

该数据集的特点在于其多样性、全面性和实用性。它不仅包含了基础的语义词库，还整合了多个领域的共时与历时语料库，为自然语言处理研究提供了丰富的文本资源。此外，该数据集还包含了多种评测语料库，可用于评估和验证自然语言处理模型的性能。

使用方法

用户可以根据自己的研究需求，选择相应的子数据集进行使用。对于领域语料库，可以通过爬虫代码获取指定日期的报纸文本，并对文本进行解析和字段提取。对于评测语料库，可以直接使用提供的标注数据进行模型训练和评估。在使用过程中，用户应遵循数据集的使用规范，尊重数据版权和隐私权益。

背景与挑战

背景概述

ChineseNLPCorpus数据集是一款涵盖中文自然语言处理领域多种类型语料库的资源集合。该数据集的创建旨在为中文自然语言处理研究提供丰富的语言资源，其核心研究问题涉及语言资源的构建、分类与应用。该数据集由多个领域的专家和研究人员共同构建，其中包括作者刘焕勇，其在硕士期间受国家语言资源监测与研究平面媒体中心的导师影响，对语言资源建设产生了深刻的理解和实践。ChineseNLPCorpus自发布以来，对中文自然语言处理领域的研究产生了重要影响，促进了相关技术的发展和应用。

当前挑战

在研究领域问题上，ChineseNLPCorpus数据集面临的挑战包括如何确保所包含的语料库在质量、多样性和时效性上满足不断发展的研究需求。在构建过程中，挑战主要体现在语言资源的收集、融合标准化、动态更新以及共享与联盟问题上。具体来说，收集过程中需要处理的信息量大，且需人工去噪；融合标准化面临格式不对称和标准不统一的问题；动态更新需要持续的技术支持和资源投入；共享与联盟问题则涉及到资源开放的意愿和策略。

常用场景

经典使用场景

ChineseNLPCorpus作为一个综合性的中文自然语言处理语料库，其经典使用场景主要集中于中文自然语言处理的基础研究与应用开发。该数据集涵盖了从基本语法词汇到丰富的领域语料，为研究者提供了丰富的语言资源，使其可以用于中文分词、词性标注、命名实体识别等自然语言处理任务的训练与评估。

衍生相关工作

基于ChineseNLPCorpus，研究者们已经衍生出了一系列相关工作，如构建更加专业化的领域词库、开发针对特定任务的评测语料库、以及利用这些资源进行深入的语义分析和知识图谱构建等。这些工作进一步推动了中文自然语言处理领域的研究进展和技术发展。

数据集最近研究