ChineseNlpCorpus

github2019-07-18 更新2024-05-31 收录

下载链接：

https://github.com/iOSKesai/ChineseNLPCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

中文自然语言处理数据集，包含文本分类、情感/观点/评论倾向性分析、实体识别&词性标注、搜索匹配、推荐系统等多个领域的数据集。

A Chinese natural language processing dataset encompassing various domains such as text classification, sentiment/opinion/comment analysis, entity recognition & part-of-speech tagging, search matching, and recommendation systems.

创建时间：

2019-07-18

原始信息汇总

ChineseNlpCorpus

中文自然语言处理数据集，用于实验和研究。

文本分类

新闻分类

今日头条中文新闻（短文本）分类数据集
- 数据规模：38万条，分布于15个分类中。
- 采集时间：2018年05月。
清华新闻分类语料
- 数据量：74万篇新闻文档（2.19 GB）
- 可筛选类别：体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐
中科大新闻分类语料库

情感/观点/评论倾向性分析

数据集	数据概览
ChnSentiCorp_htl_all	7000 多条酒店评论数据，5000 多条正向评论，2000 多条负向评论
waimai_10k	某外卖平台收集的用户评价，正向 4000 条，负向约 8000 条
online_shopping_10_cats	10 个类别，共 6 万多条评论数据，正、负向评论各约 3 万条，包括书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店
weibo_senti_100k	10 万多条，带情感标注新浪微博，正负向评论约各 5 万条
simplifyweibo_4_moods	36 万多条，带情感标注新浪微博，包含 4 种情感，其中喜悦约 20 万条，愤怒、厌恶、低落各约 5 万条
dmsc_v2	28 部电影，超 70 万用户，超 200 万条评分/评论数据
yf_dianping	24 万家餐馆，54 万用户，440 万条评论/评分数据
yf_amazon	52 万件商品，1100 多个类目，142 万用户，720 万条评论/评分数据

实体识别&词性标注

微博实体识别
boson数据
- 包含6种实体类型。
人民日报数据集
- 人名、地名、组织名三种实体类型
MSRA微软亚洲研究院数据集
- 5 万多条中文命名实体识别标注数据（包括地点、机构、人物）
SIGHAN Bakeoff 2005
- 包含繁体中文和简体中文分词数据。

搜索匹配

OPPO手机搜索排序
网页搜索结果评价(SogouE)

百科数据

维基百科
百度百科

指代消歧

CoNLL 2012

预训练

BERT
ELMO
腾讯词向量
- 包含800多万中文词汇，每个词对应一个200维的向量。
上百种预训练中文词向量

中文完形填空数据集

中华古诗词数据库

包含近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人，21050首词。

保险行业语料库

汉语拆字字典

中文数据集平台

搜狗实验室
中科大自然语言处理与信息检索共享平台
中文语料小数据
维基百科数据集

搜集汇总

数据集介绍

构建方式

ChineseNlpCorpus 数据集的构建主要基于网络爬虫技术，从多个来源如新闻网站、社交媒体、电子商务平台等收集大量中文文本数据。这些数据经过预处理，包括清洗、分类、标注等步骤，以满足不同的NLP任务需求，如文本分类、情感分析、实体识别等。

使用方法

用户可以根据具体的研究或开发需求，选择相应的数据集部分进行下载和使用。数据集的使用通常需要先进行数据解压，然后根据任务类型，采用适当的NLP工具和技术进行数据分析和模型训练。对于不同的NLP任务，可能需要不同的数据处理和模型构建方法。

背景与挑战

背景概述

ChineseNlpCorpus是一个旨在促进中文自然语言处理研究的数据集集合。该数据集由多位研究者和机构共同创建，并在2018年05月前不断更新与完善。它包含了新闻分类、情感分析、实体识别、搜索匹配和推荐系统等多个领域的子数据集，是中文自然语言处理领域的一个重要资源。特别是其中的今日头条中文新闻分类数据集和清华新闻分类语料，对推动文本分类研究具有重要意义。此外，该数据集还包含了大量的情感分析评论数据，如ChnSentiCorp_htl_all和weibo_senti_100k，为情感倾向性分析提供了丰富的语料。在实体识别与词性标注方面，ChineseNlpCorpus汇集了包括人民日报数据集、MSRA微软亚洲研究院数据集在内的多种资源，为相关领域的研究提供了支持。

当前挑战

尽管ChineseNlpCorpus为中文自然语言处理领域提供了丰富的数据资源，但在使用过程中也存在一些挑战。首先是数据集的质量控制，因为数据来源于不同的渠道和时期，需要确保其一致性和准确性。其次是数据标注的准确性，特别是在情感分析和实体识别等领域，标注错误可能会对模型训练造成负面影响。此外，随着自然语言处理技术的快速发展，如何整合新出现的标注体系和数据类型，以及如何处理不断增长的数据量，也是该数据集面临的挑战。

常用场景

经典使用场景

ChineseNlpCorpus数据集在文本分类领域尤为常见，其包含了今日头条中文新闻分类数据集、清华新闻分类语料以及中科大新闻分类语料库等，为研究者和开发者提供了丰富的文本资源，助力模型训练与算法验证。

解决学术问题

该数据集解决了中文文本分类中的数据稀缺问题，为学术研究提供了强有力的数据支撑，推动了中文自然语言处理技术的发展。此外，在情感分析、实体识别、搜索匹配及推荐系统等领域，它也为解决标注数据不足、模型泛化能力差等问题提供了帮助。

实际应用

在实际应用中，ChineseNlpCorpus数据集被广泛应用于新闻网站的内容分类、电商平台的商品评论情感分析、搜索引擎的搜索结果排序等场景，显著提升了相关应用的智能化水平和服务质量。

数据集最近研究

数据集	数据概览
ez_douban	5 万多部电影，2.8 万用户，280 万条评分数据
dmsc_v2	28 部电影，超 70 万用户，超 200 万条评分/评论数据
yf_dianping	24 万家餐馆，54 万用户，440 万条评论/评分数据
yf_amazon	52 万件商品，1100 多个类目，142 万用户，720 万条评论/评分数据

ChineseNlpCorpus

ChineseNlpCorpus

文本分类

新闻分类

情感/观点/评论 倾向性分析

实体识别&词性标注

搜索匹配

推荐系统

百科数据

指代消歧

预训练

中文完形填空数据集

中华古诗词数据库

保险行业语料库

汉语拆字字典

中文数据集平台

情感/观点/评论倾向性分析