ChineseNlpCorpus
收藏github2020-04-09 更新2024-05-31 收录
下载链接:
https://github.com/ares5221/ChineseNLPCorpus
下载链接
链接失效反馈官方服务:
资源简介:
中文自然语言处理数据集,包含文本分类、情感/观点/评论倾向性分析、实体识别&词性标注、搜索匹配、推荐系统等多个领域的数据集,用于实验和研究。
A Chinese natural language processing dataset encompassing various domains such as text classification, sentiment/opinion/comment analysis, entity recognition & part-of-speech tagging, search matching, and recommendation systems, designed for experimentation and research.
创建时间:
2019-12-23
原始信息汇总
ChineseNlpCorpus
文本分类
新闻分类
-
今日头条中文新闻(短文本)分类数据集
- 数据规模:38万条,分布于15个分类中。
- 采集时间:2018年05月。
- 数据分割:0.7 0.15 0.15。
-
清华新闻分类语料
- 数据来源:新浪新闻RSS订阅频道2005~2011年历史数据。
- 数据量:74万篇新闻文档(2.19 GB)。
- 可筛选类别:体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐。
-
中科大新闻分类语料库
- 数据详情:http://www.nlpir.org/?action-viewnews-itemid-145
情感/观点/评论 倾向性分析
| 数据集 | 数据概览 | 下载地址 |
|---|---|---|
| ChnSentiCorp_htl_all | 7000多条酒店评论数据,5000多条正向评论,2000多条负向评论 | 地址 |
| waimai_10k | 某外卖平台收集的用户评价,正向4000条,负向约8000条 | 地址 |
| online_shopping_10_cats | 10个类别,共6万多条评论数据,正、负向评论各约3万条,包括书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店 | 地址 |
| weibo_senti_100k | 10万多条,带情感标注新浪微博,正负向评论约各5万条 | 地址 |
| simplifyweibo_4_moods | 36万多条,带情感标注新浪微博,包含4种情感,其中喜悦约20万条,愤怒、厌恶、低落各约5万条 | 地址 |
| dmsc_v2 | 28部电影,超70万用户,超200万条评分/评论数据 | 地址 |
| yf_dianping | 24万家餐馆,54万用户,440万条评论/评分数据 | 地址 |
| yf_amazon | 52万件商品,1100多个类目,142万用户,720万条评论/评分数据 | 地址 |
实体识别&词性标注
-
微博实体识别
- 数据详情:https://github.com/hltcoe/golden-horse
-
boson数据
- 包含6种实体类型。
- 数据详情:https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/boson
-
人民日报数据集
- 实体类型:人名、地名、组织名。
- 1998年数据:https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/renMinRiBao
- 2004年数据:https://pan.baidu.com/s/1LDwQjoj7qc-HT9qwhJ3rcA password: 1fa3
-
MSRA微软亚洲研究院数据集
- 包含5万多条中文命名实体识别标注数据(包括地点、机构、人物)。
- 数据详情:https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRA
-
SIGHAN Bakeoff 2005
- 包含四个数据集,包含繁体中文和简体中文。
- MSR数据集:http://sighan.cs.uchicago.edu/bakeoff2005/
- PKU数据集:http://sighan.cs.uchicago.edu/bakeoff2005/
搜索匹配
-
OPPO手机搜索排序
- 数据集:query-title语义匹配数据集。
- 下载链接:https://pan.baidu.com/s/1Hg2Hubsn3GEuu4gubbHCzw 提取码:7p3n
-
网页搜索结果评价(SogouE)
- 包含用户查询及相关URL列表。
- 数据详情:https://www.sogou.com/labs/resource/e.php
推荐系统
| 数据集 | 数据概览 | 下载地址 |
|---|---|---|
| ez_douban | 5万多部电影(3万多有电影名称,2万多没有电影名称),2.8万用户,280万条评分数据 | 点击查看 |
| dmsc_v2 | 28部电影,超70万用户,超200万条评分/评论数据 | 点击查看 |
| yf_dianping | 24万家餐馆,54万用户,440万条评论/评分数据 | 点击查看 |
| yf_amazon | 52万件商品,1100多个类目,142万用户,720万条评论/评分数据 | 点击查看 |
百科数据
-
维基百科
- 数据详情:https://dumps.wikimedia.org/zhwiki/
-
百度百科
- 爬取链接:
https://pan.baidu.com/share/init?surl=i3wvfil提取码 neqs 。
- 爬取链接:
指代消歧
- CoNLL 2012
预训练
-
BERT
- 模型下载:BERT-Base, Chinese: Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameters
-
ELMO
- 预训练的模型:https://allennlp.org/elmo
-
腾讯词向量
- 包含800多万中文词汇,每个词对应一个200维的向量。
- 下载地址:https://ai.tencent.com/ailab/nlp/embedding.html
-
上百种预训练中文词向量
中文完形填空数据集
中华古诗词数据库
- 包含唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。
- 数据详情:https://github.com/chinese-poetry/chinese-poetry
保险行业语料库
汉语拆字字典
中文数据集平台
-
搜狗实验室
- 提供高质量的中文文本数据集,多为2012年以前的数据。
- 数据详情:https://www.sogou.com/labs/resource/list_pingce.php
-
中科大自然语言处理与信息检索共享平台
-
中文语料小数据
- 包含中文命名实体识别、中文关系识别、中文阅读理解等小量数据。
- 数据详情:https://github.com/crownpku/Small-Chinese-Corpus
-
维基百科数据集
- 数据详情:https://dumps.wikimedia.org/
NLP工具
-
THULAC
- 包含中文分词、词性标注功能。
- 数据详情:https://github.com/thunlp/THULAC
-
HanLP
-
哈工大LTP
-
NLPIR
-
jieba
搜集汇总
数据集介绍

构建方式
ChineseNlpCorpus 数据集通过整合多种中文自然语言处理相关数据资源构建而成,涵盖了文本分类、情感分析、实体识别、搜索匹配、推荐系统等多个领域。具体构建方式包括搜集网络公开数据、筛选特定领域的新闻RSS订阅数据、利用社交媒体平台评论及评分数据等,经过整理和预处理,形成了适用于不同NLP任务的数据集。
特点
该数据集的特点在于其多样性、全面性以及实用性。它不仅包含了大规模的新闻分类数据,还涉及用户情感倾向性分析、实体识别等多种NLP任务所需的数据。此外,数据集还针对不同应用场景进行了优化,如针对推荐系统的用户评分数据,为研究用户行为提供了丰富的信息。
使用方法
用户可以根据自身需求,选择相应的数据子集进行下载和使用。数据集提供了详细的说明文档,用户可参照文档了解数据格式及使用方法。对于部分数据集,还提供了预处理代码和样例,便于用户快速上手。在使用时,需遵循数据集的版权和使用规定,合法合规地进行研究与应用。
背景与挑战
背景概述
ChineseNlpCorpus是一个旨在促进中文自然语言处理研究的综合数据集。该数据集涵盖了文本分类、情感分析、实体识别、搜索匹配、推荐系统等多个领域,为研究人员提供了丰富的实验材料。其创建并非由单一机构或研究人员主导,而是由多个来源和项目共同贡献而成,如清华大学、中科大等。自2018年以来,该数据集不断更新,包含了从新闻分类到用户评论等多样化的数据,对中文自然语言处理领域产生了重要影响。
当前挑战
尽管ChineseNlpCorpus为中文NLP研究提供了宝贵的资源,但在构建和使用过程中仍面临诸多挑战。首先,数据集的多样性和规模带来了标注一致性、数据质量和数据平衡性的问题。其次,由于涉及多个领域,如何确保各类数据的处理方法和评估标准的一致性是另一大挑战。此外,随着研究的深入,不断有新的领域问题和应用场景出现,对数据集的更新和维护提出了更高的要求。
常用场景
经典使用场景
ChineseNlpCorpus作为中文自然语言处理领域的重要数据集,其经典使用场景主要集中于文本分类、情感/观点/评论倾向性分析、实体识别与词性标注等任务。在文本分类任务中,研究者可以利用其中包含的头条新闻、清华新闻等分类数据,进行模型训练与算法验证。情感分析方面,该数据集提供了丰富的评论数据,如酒店评论、外卖平台评论等,为情绪识别与观点挖掘提供了坚实基础。
衍生相关工作
基于ChineseNlpCorpus数据集,学术界和产业界衍生了众多经典工作。这些工作不仅涉及基础研究,如文本分类算法的优化、情感分析模型的改进,还包括应用于特定领域的系统开发,如基于数据集的情感分析工具、用于用户行为分析的智能系统等,进一步扩展了数据集的应用边界和研究深度。
数据集最近研究
最新研究方向
近期,中文自然语言处理领域的研究方向主要集中在文本分类、情感/观点/评论倾向性分析、实体识别与词性标注、搜索匹配和推荐系统等方面。在文本分类领域,学者们利用ChineseNlpCorpus中的新闻分类数据集进行模型训练,以提高新闻推荐的准确性。情感分析方面,研究者基于微博和电商评论数据,探索情感识别的深度学习模型。实体识别与词性标注的研究则聚焦于提高对中文文本中命名实体和词性的识别准确度。搜索匹配和推荐系统领域,研究者通过分析用户行为数据,以优化搜索结果排序和个性化推荐算法。这些研究不仅推动了中文NLP技术的发展,也为相关行业应用提供了强有力的数据支撑。
以上内容由遇见数据集搜集并总结生成



