ChineseNlpCorpus

github2019-11-27 更新2024-05-31 收录

下载链接：

https://github.com/jialei711/ChineseNLPCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

中文自然语言处理数据集，包含文本分类、情感分析、实体识别等多个领域的数据集，用于实验和研究。

A Chinese natural language processing dataset encompassing various domains such as text classification, sentiment analysis, and entity recognition, utilized for experimentation and research.

创建时间：

2019-06-24

原始信息汇总

数据集概述

文本分类

今日头条中文新闻（短文本）分类数据集
- 数据规模：共38万条，分布于15个分类中。
- 采集时间：2018年05月。
- 数据分割：0.7 0.15 0.15。
清华新闻分类语料
- 数据来源：根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成。
- 数据量：74万篇新闻文档（2.19 GB）。
- 可选类别：体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐。
中科大新闻分类语料库
- 数据来源：http://www.nlpir.org/?action-viewnews-itemid-145

情感/观点/评论倾向性分析

数据集	数据概览
ChnSentiCorp_htl_all	7000 多条酒店评论数据，5000 多条正向评论，2000 多条负向评论
waimai_10k	某外卖平台收集的用户评价，正向 4000 条，负向约 8000 条
online_shopping_10_cats	10 个类别，共 6 万多条评论数据，正、负向评论各约 3 万条，包括书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店
weibo_senti_100k	10 万多条，带情感标注新浪微博，正负向评论约各 5 万条
simplifyweibo_4_moods	36 万多条，带情感标注新浪微博，包含 4 种情感，其中喜悦约 20 万条，愤怒、厌恶、低落各约 5 万条
dmsc_v2	28 部电影，超 70 万用户，超 200 万条评分/评论数据
yf_dianping	24 万家餐馆，54 万用户，440 万条评论/评分数据
yf_amazon	52 万件商品，1100 多个类目，142 万用户，720 万条评论/评分数据

实体识别&词性标注

微博实体识别
- 数据来源：https://github.com/hltcoe/golden-horse
boson数据
- 包含6种实体类型。
- 数据来源：https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/boson
人民日报数据集
- 实体类型：人名、地名、组织名。
- 1998年数据：https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/renMinRiBao
- 2004年数据：https://pan.baidu.com/s/1LDwQjoj7qc-HT9qwhJ3rcA password: 1fa3
MSRA微软亚洲研究院数据集
- 包含5万多条中文命名实体识别标注数据（包括地点、机构、人物）。
- 数据来源：https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRA

搜索匹配

OPPO手机搜索排序
- 数据类型：query-title语义匹配数据集。
- 数据来源：https://pan.baidu.com/s/1Hg2Hubsn3GEuu4gubbHCzw 提取码:7p3n

百科数据

维基百科
- 数据来源：https://dumps.wikimedia.org/zhwiki/
百度百科
- 数据来源：https://pan.baidu.com/share/init?surl=i3wvfil 提取码 neqs

指代消歧

CoNLL 2012
- 数据来源：http://conll.cemantix.org/2012/data.html

预训练

BERT
- 模型下载：BERT-Base, Chinese
ELMO
- 预训练的模型：https://allennlp.org/elmo
腾讯词向量
- 数据集包含800多万中文词汇，每个词对应一个200维的向量。
- 下载地址：https://ai.tencent.com/ailab/nlp/embedding.html
上百种预训练中文词向量
- 数据来源：https://github.com/Embedding/Chinese-Word-Vectors

中文完形填空数据集

数据来源：https://github.com/ymcui/Chinese-RC-Dataset

中华古诗词数据库

数据集包含唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人，21050首词。
数据来源：https://github.com/chinese-poetry/chinese-poetry

保险行业语料库

数据来源：https://github.com/Samurais/insuranceqa-corpus-zh

汉语拆字字典

数据来源：https://github.com/kfcd/chaizi

中文数据集平台

搜狗实验室
- 数据来源：https://www.sogou.com/labs/resource/list_pingce.php
中科大自然语言处理与信息检索共享平台
- 数据来源：http://www.nlpir.org/?action-category-catid-28
中文语料小数据
- 数据来源：https://github.com/crownpku/Small-Chinese-Corpus
维基百科数据集
- 数据来源：https://dumps.wikimedia.org/

NLP工具

THULAC
- 数据来源：https://github.com/thunlp/THULAC
HanLP
- 数据来源：https://github.com/hankcs/HanLP
哈工大LTP
- 数据来源：https://github.com/HIT-SCIR/ltp
NLPIR
- 数据来源：https://github.com/NLPIR-team/NLPIR
jieba
- 数据来源：https://github.com/yanyiwu/cppjieba

搜集汇总

数据集介绍

构建方式

ChineseNlpCorpus 数据集的构建汇集了多样化的中文自然语言处理相关材料，涵盖了文本分类、情感分析、实体识别、搜索匹配、推荐系统等多个领域。具体构建方式包括对网络资源的爬取、已有数据集的整合以及用户生成内容的数据收集，旨在为研究者提供全面的实验素材。

使用方法

用户可通过数据集提供的链接直接访问并下载所需数据。针对不同类型的数据集，使用方法略有不同，一般需要用户自行根据数据集的特性和需求进行预处理，包括数据清洗、格式转换等步骤，以适应特定的研究场景和模型需求。

背景与挑战

背景概述

ChineseNlpCorpus是一个旨在促进中文自然语言处理研究的综合数据集，包含了文本分类、情感分析、实体识别、搜索匹配、推荐系统等多种类型的数据资源。该数据集的创建并非出自单一机构或研究人员，而是由多个来源和项目共同贡献而成，其研究背景主要来源于中文自然语言处理领域的需求，旨在为研究者提供实验材料。自2018年起，陆续有数据集被整合进入，其中包含了今日头条中文新闻分类数据集、清华大学新闻分类语料、中科大新闻分类语料库等，对推动中文文本分类研究具有重要价值。

当前挑战

该数据集在构建和应用过程中面临的挑战主要包括：数据标注的一致性和准确性，由于涉及多个数据来源，标注标准可能存在差异；数据隐私和版权问题，尤其是在处理用户生成内容如评论和微博数据时；此外，随着中文自然语言处理领域研究的不断深入，现有数据集在规模和多样性方面可能无法满足日益增长的研究需求。具体到各个领域问题，例如在情感分析中，如何准确捕捉和表达中文语境下的细微情感差异仍是一大挑战。

常用场景

经典使用场景

ChineseNlpCorpus数据集是中文自然语言处理领域的重要资源库，其经典使用场景主要集中于文本分类、情感/观点/评论倾向性分析、实体识别与词性标注等任务。在文本分类方面，该数据集支持新闻分类，如头条新闻分类数据集，可用于训练和评估分类模型的性能。情感分析方面，数据集中的酒店评论、外卖平台评价等，为研究者提供了丰富的情感标注文本，有助于模型的情感识别与预测。

解决学术问题

该数据集解决了中文自然语言处理中多项关键学术研究问题，包括但不限于文本的准确分类、情感倾向的有效识别、命名实体的精准标注等。这些问题对于提升中文信息处理技术的准确性和实用性至关重要，为学术研究提供了可靠的数据基础，推动了相关领域的学术进步和技术发展。

实际应用

在实际应用场景中，ChineseNlpCorpus数据集的应用广泛，其支持的任务可直接应用于新闻推荐、情感分析、搜索引擎、推荐系统等多个领域。例如，在推荐系统中，数据集中的电影评分和评论数据可帮助构建更精准的推荐算法，提升用户体验。

数据集最近研究

数据集	数据概览
ez_douban	5 万多部电影（3 万多有电影名称，2 万多没有电影名称），2.8 万用户，280 万条评分数据
dmsc_v2	28 部电影，超 70 万用户，超 200 万条评分/评论数据
yf_dianping	24 万家餐馆，54 万用户，440 万条评论/评分数据
yf_amazon	52 万件商品，1100 多个类目，142 万用户，720 万条评论/评分数据