ChineseNlpCorpus

github2019-06-21 更新2024-05-31 收录

下载链接：

https://github.com/Kgoeson/ChineseNLPCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

中文自然语言处理数据集，包含文本分类、情感/观点/评论倾向性分析、实体识别&词性标注、搜索匹配和推荐系统等多个领域的数据集。

A Chinese natural language processing dataset encompassing various domains such as text classification, sentiment/opinion/comment analysis, entity recognition & part-of-speech tagging, search matching, and recommendation systems.

创建时间：

2019-06-21

原始信息汇总

ChineseNlpCorpus

中文自然语言处理数据集，包含多种类型的数据集，适用于不同的NLP任务。

文本分类

新闻分类

今日头条中文新闻（短文本）分类数据集
- 数据规模：38万条，分布于15个分类中。
- 采集时间：2018年05月。
清华新闻分类语料
- 数据量：74万篇新闻文档（2.19 GB）
- 可筛选类别：体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐
中科大新闻分类语料库

情感/观点/评论倾向性分析

数据集	数据概览	下载
ChnSentiCorp_htl_all	7000 多条酒店评论数据，5000 多条正向评论，2000 多条负向评论	地址
waimai_10k	某外卖平台收集的用户评价，正向 4000 条，负向约 8000 条	地址
online_shopping_10_cats	10 个类别，共 6 万多条评论数据，正、负向评论各约 3 万条，包括书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店	地址
weibo_senti_100k	10 万多条，带情感标注新浪微博，正负向评论约各 5 万条	地址
simplifyweibo_4_moods	36 万多条，带情感标注新浪微博，包含 4 种情感，其中喜悦约 20 万条，愤怒、厌恶、低落各约 5 万条	地址
dmsc_v2	28 部电影，超 70 万用户，超 200 万条评分/评论数据	地址
yf_dianping	24 万家餐馆，54 万用户，440 万条评论/评分数据	地址
yf_amazon	52 万件商品，1100 多个类目，142 万用户，720 万条评论/评分数据	地址

实体识别&词性标注

微博实体识别
boson数据
- 包含6种实体类型。
1998年人民日报数据集
- 人名、地名、组织名三种实体类型
MSRA微软亚洲研究院数据集
- 5 万多条中文命名实体识别标注数据（包括地点、机构、人物）
SIGHAN Bakeoff 2005
- 包含繁体中文和简体中文分词数据。

搜索匹配

OPPO手机搜索排序
网页搜索结果评价(SogouE)

百科数据

维基百科
百度百科

指代消歧

CoNLL 2012

预训练

BERT
ELMO
腾讯词向量
上百种预训练中文词向量

中文完形填空数据集

中华古诗词数据库

保险行业语料库

汉语拆字字典

中文数据集平台

搜狗实验室
中科大自然语言处理与信息检索共享平台
中文语料小数据
维基百科数据集

NLP工具

THULAC
HanLP
哈工大LTP
NLPIR
jieba

搜集汇总

数据集介绍

构建方式

ChineseNlpCorpus 数据集的构建汇集了多样化的中文自然语言处理相关材料，涵盖文本分类、情感分析、实体识别、搜索匹配、推荐系统等多个领域。具体构建方式包括从互联网平台如今日头条、微博等收集的大量文本数据，以及从传统媒体如人民日报等获取的结构化数据。通过对这些数据进行筛选、清洗和标注，形成了适用于不同NLP任务的数据集。

使用方法

使用该数据集时，用户可以根据具体的研究或应用需求，选择相应的子数据集。例如，对于文本分类任务，可以选择新闻分类或情感倾向性分析的数据集；对于实体识别任务，可以使用包含人名、地名、组织名的标注数据集。用户应遵循数据集的使用条款，合理利用数据，以推动中文自然语言处理领域的研究与应用。

背景与挑战

背景概述

ChineseNlpCorpus是一个集合了多种中文自然语言处理相关数据集的资源库，旨在为研究者提供丰富的实验材料。该数据集涵盖了文本分类、情感分析、实体识别、词性标注、搜索匹配、推荐系统等多个NLP领域。其创建并非由单一机构或研究人员完成，而是由多个来源和项目共同维护与贡献，例如包括了来自头条新闻、清华、中科大等机构的新闻分类数据，以及来自社交媒体、电商平台的海量用户评论数据。ChineseNlpCorpus自推出以来，对中文自然语言处理领域的研究产生了积极的影响，为相关模型的训练和算法的研究提供了重要的数据支撑。

当前挑战

尽管ChineseNlpCorpus为中文NLP研究提供了丰富的数据资源，但在使用过程中也存在一些挑战。首先，数据集的多样性和规模带来了数据清洗、整合和管理的挑战。其次，在构建特定任务的数据集时，如何确保数据的代表性、平衡性和标签的准确性是一个持续的挑战。此外，由于数据集来源于不同的渠道和时期，如何处理数据之间的差异和时代特征，以适应不断变化的语言使用习惯和技术标准，也是当前面临的挑战之一。

常用场景

经典使用场景

ChineseNlpCorpus 数据集是中文自然语言处理领域的重要资源库，其经典使用场景主要集中于文本分类、情感/观点/评论倾向性分析、实体识别与词性标注等研究。尤其是文本分类方面，该数据集提供了包括新闻分类在内的多种文本分类数据，为构建和评估分类模型提供了丰富的实验材料。

解决学术问题

该数据集解决了中文自然语言处理中多项学术研究问题，如文本分类中的多类别识别、情感分析中的倾向性判断、实体识别中的命名实体提取等。其丰富的数据标注和多样化文本内容，为算法研究者和开发者提供了宝贵的测试和训练资源，对提升中文NLP相关技术的准确性和实用性具有重要意义。

实际应用

在实际应用场景中，ChineseNlpCorpus 数据集的文本分类功能可应用于新闻聚合、内容推荐等；情感分析功能可用于市场舆情监控、用户满意度分析等；实体识别与词性标注则对信息抽取、问答系统等应用提供了基础支持。

数据集最近研究

数据集	数据概览	下载地址
ez_douban	5 万多部电影（3 万多有电影名称，2 万多没有电影名称），2.8 万用户，280 万条评分数据	点击查看
dmsc_v2	28 部电影，超 70 万用户，超 200 万条评分/评论数据	点击查看
yf_dianping	24 万家餐馆，54 万用户，440 万条评论/评分数据	点击查看
yf_amazon	52 万件商品，1100 多个类目，142 万用户，720 万条评论/评分数据	点击查看

ChineseNlpCorpus

ChineseNlpCorpus

文本分类

新闻分类

情感/观点/评论 倾向性分析

实体识别&词性标注

搜索匹配

推荐系统

百科数据

指代消歧

预训练

中文完形填空数据集

中华古诗词数据库

保险行业语料库

汉语拆字字典

中文数据集平台

NLP工具

情感/观点/评论倾向性分析