ChineseNlpCorpus
收藏github2020-03-27 更新2024-05-31 收录
下载链接:
https://github.com/fighting41love/ChineseNLPCorpus
下载链接
链接失效反馈官方服务:
资源简介:
中文自然语言处理数据集,包含文本分类、情感/观点/评论倾向性分析、实体识别&词性标注、搜索匹配、推荐系统等多个领域的数据集,用于实验和研究。
The Chinese Natural Language Processing dataset encompasses a variety of datasets across multiple domains such as text classification, sentiment/opinion/comment analysis, entity recognition & part-of-speech tagging, search matching, and recommendation systems, intended for experimentation and research.
创建时间:
2019-06-29
原始信息汇总
数据集概述
文本分类
- 今日头条中文新闻(短文本)分类数据集
- 数据规模:38万条,分布于15个分类中。
- 采集时间:2018年05月。
- 清华新闻分类语料
- 数据量:74万篇新闻文档(2.19 GB)
- 可筛选类别:体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐
- 中科大新闻分类语料库
情感/观点/评论 倾向性分析
- ChnSentiCorp_htl_all
- 数据概览:7000多条酒店评论数据,5000多条正向评论,2000多条负向评论。
- waimai_10k
- 数据概览:某外卖平台收集的用户评价,正向4000条,负向约8000条。
- online_shopping_10_cats
- 数据概览:10个类别,共6万多条评论数据,正、负向评论各约3万条。
- weibo_senti_100k
- 数据概览:10万多条,带情感标注新浪微博,正负向评论约各5万条。
- simplifyweibo_4_moods
- 数据概览:36万多条,带情感标注新浪微博,包含4种情感。
- dmsc_v2
- 数据概览:28部电影,超70万用户,超200万条评分/评论数据。
- yf_dianping
- 数据概览:24万家餐馆,54万用户,440万条评论/评分数据。
- yf_amazon
- 数据概览:52万件商品,1100多个类目,142万用户,720万条评论/评分数据。
实体识别&词性标注
- 微博实体识别
- boson数据
- 包含6种实体类型。
- 人民日报数据集
- 包含人名、地名、组织名三种实体类型。
- MSRA微软亚洲研究院数据集
- 包含5万多条中文命名实体识别标注数据(包括地点、机构、人物)。
- SIGHAN Bakeoff 2005
- 包含四个数据集,包含繁体中文和简体中文。
搜索匹配
- OPPO手机搜索排序
- 包含query-title语义匹配数据集。
- 网页搜索结果评价(SogouE)
- 包含用户查询及相关URL列表。
推荐系统
- ez_douban
- 数据概览:5万多部电影,2.8万用户,280万条评分数据。
- dmsc_v2
- 数据概览:28部电影,超70万用户,超200万条评分/评论数据。
- yf_dianping
- 数据概览:24万家餐馆,54万用户,440万条评论/评分数据。
- yf_amazon
- 数据概览:52万件商品,1100多个类目,142万用户,720万条评论/评分数据。
百科数据
- 维基百科
- 维基百科会定时将语料库打包发布。
- 百度百科
- 只能自己爬取。
指代消歧
- CoNLL 2012
预训练
- BERT
- 模型下载:BERT-Base, Chinese。
- ELMO
- 预训练的模型。
- 腾讯词向量
- 包含800多万中文词汇,每个词对应一个200维的向量。
- 上百种预训练中文词向量
中文完形填空数据集
- 中文完形填空数据集
中华古诗词数据库
- 中华古诗词数据库
- 包含唐宋两朝近一万四千古诗人,接近5.5万首唐诗加26万宋诗。
保险行业语料库
- 保险行业语料库
汉语拆字字典
- 汉语拆字字典
中文数据集平台
- 搜狗实验室
- 中科大自然语言处理与信息检索共享平台
- 中文语料小数据
- 包含中文命名实体识别、中文关系识别、中文阅读理解等小量数据。
- 维基百科数据集
NLP工具
- THULAC
- HanLP
- 哈工大LTP
- NLPIR
- jieba
搜集汇总
数据集介绍

构建方式
ChineseNlpCorpus 数据集的构建基于多样化中文自然语言处理任务的需求,涵盖了文本分类、情感分析、实体识别、搜索匹配、推荐系统等多个领域。数据集通过整合不同来源的中文文本数据,如新闻、社交媒体评论、用户评分等,经过筛选、标注和预处理等步骤构建而成,旨在为中文自然语言处理研究提供丰富的实验材料。
特点
该数据集的特点在于数据类型丰富,覆盖了多个自然语言处理任务所需的不同类型的数据,如短文本新闻分类、情感倾向性标注的微博评论、电影评分数据等。此外,数据集规模较大,提供了充足的样本以供模型训练和评估,同时,部分数据集具有明确的情感标签或实体类型标注,有利于进行特定任务的研究。
使用方法
用户可根据具体的研究需求选择相应的子数据集。使用时,需先下载数据集并根据数据集的readme文件或相关文档了解数据格式和内容。对于分类任务,数据集通常包含训练集、验证集和测试集;对于情感分析,数据集通常包含带有情感标签的文本数据;对于实体识别,数据集则包含了已标注的实体类型信息。用户可以利用这些数据集进行模型的训练、验证和测试,以评估模型的性能。
背景与挑战
背景概述
ChineseNlpCorpus是一个集合了多种中文自然语言处理相关数据集的资源库,旨在为研究者提供丰富的实验材料。该数据集涵盖了文本分类、情感分析、实体识别、搜索匹配、推荐系统等多个NLP领域。其创建并非由单一机构或研究人员完成,而是由多个来源和项目共同贡献而成,如清华大学、中科大等学术机构。ChineseNlpCorpus的构建时间为不同数据集而异,最早的可追溯到2005年。该数据集对中文自然语言处理领域的研究具有深远的影响,为相关领域的模型训练和算法研究提供了宝贵的数据资源。
当前挑战
尽管ChineseNlpCorpus提供了丰富的数据资源,但其在构建和使用过程中也面临一些挑战。首先,不同数据集的质量参差不齐,存在数据标注不一致、数据分布不均衡等问题。其次,由于数据集来源多样,整合过程中可能存在格式兼容性和数据清洗的挑战。此外,随着NLP技术的不断发展,现有数据集可能无法满足新兴任务和研究方向的需求,如跨领域文本分类、细粒度情感分析等。
常用场景
经典使用场景
ChineseNlpCorpus 数据集在中文自然语言处理领域具有重要的应用价值,其经典使用场景主要涉及文本分类、情感/观点/评论倾向性分析、实体识别与词性标注、搜索匹配以及推荐系统等。例如,在文本分类任务中,研究者可以利用该数据集中的新闻分类语料,如清华新闻分类语料,进行模型训练,以实现对新闻文本的自动分类。
实际应用
在实际应用场景中,ChineseNlpCorpus 数据集的应用广泛,例如,在推荐系统中,可以利用ez_douban和dmsc_v2数据集进行电影推荐算法的训练,以提高推荐系统的准确性和用户体验。在商业领域,如电商平台,可以利用yf_amazon数据集中的用户评论和评分数据进行情感分析和产品推荐,从而提升用户满意度和平台销售业绩。
衍生相关工作
基于ChineseNlpCorpus 数据集,衍生了众多相关经典工作。例如,基于该数据集的预训练模型BERT-Base, Chinese,已经成为中文自然语言处理领域的重要基础模型,广泛应用于各种下游任务中,极大地推动了中文NLP技术的发展。此外,还有基于该数据集的情感分析、实体识别等方向的深入研究,产生了丰硕的研究成果。
以上内容由遇见数据集搜集并总结生成



