ChineseNlpCorpus
收藏github2024-05-24 更新2024-05-31 收录
下载链接:
https://github.com/InsaneLife/ChineseNLPCorpus
下载链接
链接失效反馈官方服务:
资源简介:
中文自然语言处理数据集,包含多种类型的数据集,如阅读理解、任务型对话数据等,用于实验和研究。
A Chinese natural language processing dataset encompassing a variety of data types, such as reading comprehension and task-oriented dialogue data, utilized for experimentation and research.
创建时间:
2018-12-01
原始信息汇总
ChineseNlpCorpus 数据集概述
阅读理解数据集
DuReader
- 规模: 30万问题, 140万文档, 66万答案
- 说明: 问答阅读理解数据集
- 单位: 百度
- 下载: 链接
- 评测: 2018 NLP Challenge on MRC, 2019 Language and Intelligence Challenge on MRC
$DuReader_{robust}$
CMRC 2018
- 规模: 2万问题
- 说明: 篇章片段抽取型阅读理解
- 单位: 哈工大讯飞联合实验室
- 下载: 链接
- 评测: 第二届“讯飞杯”中文机器阅读理解评测
$DuReader_{yesno}$
$DuReader_{checklist}$
- 规模: 1万
- 说明: 抽取式数据集
- 单位: 百度
- 下载: 链接
任务型对话数据
Medical DS
- 规模: 710个对话, 67种症状, 4种疾病
- 创建日期: 2018年
- 作者: Liu et al.
- 单位: 复旦大学
- 下载: 链接
句法&语义解析
NL2SQL
- 单/多表: 单
- 语言: 中文
- 复杂度: 简单
- 数据库/表格: 5,291/5,291
- 训练集: 41,522
- 验证集: 4,396
- 测试集: 8,141
- 文档: NL2SQL
CSpider
- 单/多表: 多
- 语言: 中英
- 复杂度: 复杂
- 数据库/表格: 166/876
- 训练集: 6,831
- 验证集: 954
- 测试集: 1,906
- 文档: CSpider
DuSQL
- 单/多表: 多
- 语言: 中文
- 复杂度: 复杂
- 数据库/表格: 200/813
- 训练集: 22,521
- 验证集: 2,482
- 测试集: 3,759
- 文档: DuSQL
文本分类
今日头条中文新闻(短文本)分类数据集
- 数据规模: 共38万条, 分布于15个分类中
- 采集时间: 2018年05月
- 分割: 0.7 0.15 0.15
- 下载: 链接
清华新闻分类语料
- 数据量: 74万篇新闻文档(2.19 GB)
- 类别: 体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐
- 下载: 链接
情感/观点/评论 倾向性分析
ChnSentiCorp_htl_all
- 数据概览: 7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论
- 下载: 地址
waimai_10k
- 数据概览: 某外卖平台收集的用户评价,正向 4000 条,负向 约 8000 条
- 下载: 地址
online_shopping_10_cats
- 数据概览: 10 个类别,共 6 万多条评论数据,正、负向评论各约 3 万条, 包括书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店
- 下载: 地址
weibo_senti_100k
- 数据概览: 10 万多条,带情感标注 新浪微博,正负向评论约各 5 万条
- 下载: 地址
simplifyweibo_4_moods
- 数据概览: 36 万多条,带情感标注 新浪微博,包含 4 种情感, 其中喜悦约 20 万条,愤怒、厌恶、低落各约 5 万条
- 下载: 地址
dmsc_v2
- 数据概览: 28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据
- 下载: 地址
yf_dianping
- 数据概览: 24 万家餐馆,54 万用户,440 万条评论/评分数据
- 下载: 地址
yf_amazon
- 数据概览: 52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据
- 下载: 地址
百度千言情感分析数据集
- 数据概览: 包括句子级情感分类(Sentence-level Sentiment Classification)、评价对象级情感分类(Aspect-level Sentiment Classification)、观点抽取(Opinion Target Extraction)
- 下载: 地址
实体识别&词性标注&分词
微博实体识别
- 下载: 链接
boson数据
- 包含实体类型: 6种
- 下载: 链接
人民日报数据集
- 包含实体类型: 人名、地名、组织名
- 下载: 链接
MSRA微软亚洲研究院数据集
- 包含实体类型: 地点、机构、人物
- 下载: 链接
SIGHAN Bakeoff 2005
预训练模型
BERT
- 模型下载: BERT-Base, Chinese
- 参数: 12-layer, 768-hidden, 12-heads, 110M parameters
ELMO
- 预训练的模型: 链接
腾讯词向量
- 数据概览: 800多万中文词汇,每个词对应一个200维的向量
- 下载地址: 链接
上百种预训练中文词向量
- 下载: 链接
中文完形填空数据集
- 下载: 链接
中华古诗词数据库
- 下载: 链接
保险行业语料库
- 下载: 链接
汉语拆字字典
- 下载: 链接
搜集汇总
数据集介绍

构建方式
ChineseNlpCorpus数据集的构建方式多样且全面,涵盖了从阅读理解到任务型对话、文本分类、情感分析、实体识别等多个自然语言处理领域。数据集的构建主要依赖于公开的语料库、真实对话数据以及专业领域的标注数据。例如,阅读理解数据集包括了抽取式和分类式两种方法,分别针对单篇章和多篇章的阅读理解任务。任务型对话数据则来源于真实场景,如医疗诊断对话和车载语音对话系统。文本分类数据集则包括了新闻分类和情感分类等多个子集,数据来源广泛,涵盖了多个领域和平台。
特点
ChineseNlpCorpus数据集的特点在于其多样性和实用性。首先,数据集涵盖了自然语言处理的多个核心任务,包括但不限于阅读理解、对话系统、文本分类和情感分析,为研究者和开发者提供了丰富的实验材料。其次,数据集的构建基于真实世界的语料,确保了数据的质量和应用价值。此外,数据集的规模较大,部分数据集如DuReader包含了数十万条问题和答案,能够支持大规模的模型训练和评估。最后,数据集的多样性体现在其涵盖了不同领域和应用场景,如医疗、电商、新闻等,满足了不同研究需求。
使用方法
使用ChineseNlpCorpus数据集时,用户可以根据具体的研究或应用需求选择合适的数据子集。例如,对于阅读理解任务,可以选择DuReader或CMRC 2018等数据集进行模型训练和评估。对于任务型对话系统,可以使用Medical DS或NLPCC2018 Shared Task 4等数据集。文本分类任务则可以选择今日头条新闻分类数据集或清华新闻分类语料。数据集的使用通常涉及数据下载、预处理、模型训练和性能评估等步骤。用户可以通过GitHub页面提供的链接下载数据,并根据README文件中的指导进行数据处理和模型训练。
背景与挑战
背景概述
ChineseNlpCorpus数据集是一个专注于中文自然语言处理(NLP)的综合性数据集,旨在为研究人员提供丰富的实验材料。该数据集涵盖了多个NLP子领域,包括阅读理解、任务型对话、文本分类、情感分析、实体识别等。其创建时间可追溯至2018年,主要由复旦大学、百度等机构的研究人员贡献。核心研究问题涉及中文文本的深度理解和处理,对推动中文NLP技术的发展具有重要意义。
当前挑战
ChineseNlpCorpus数据集在构建过程中面临多重挑战。首先,中文语言的复杂性,如多义词、语法结构多样性,增加了数据标注的难度。其次,数据集的多样性和规模要求高,需要处理不同来源和类型的文本数据,确保数据质量和一致性。此外,随着NLP技术的快速发展,数据集需要不断更新以适应新的研究需求和方法。这些挑战要求研究人员在数据收集、处理和标注过程中保持高度的专业性和创新性。
常用场景
经典使用场景
ChineseNlpCorpus数据集在自然语言处理领域中广泛应用于多种任务,如阅读理解、任务型对话、文本分类、情感分析、实体识别等。其经典使用场景包括构建和评估中文自然语言处理模型,特别是在阅读理解任务中,数据集提供了丰富的问答对,支持抽取式和分类式阅读理解方法的研究与应用。
实际应用
在实际应用中,ChineseNlpCorpus数据集被广泛用于开发和优化各种中文自然语言处理系统,如智能客服、搜索引擎、情感分析工具等。特别是在医疗诊断、电商评论分析、新闻分类等领域,该数据集为构建高效、准确的中文处理系统提供了坚实的基础,显著提升了相关应用的性能和用户体验。
衍生相关工作
基于ChineseNlpCorpus数据集,研究者们开展了一系列经典工作,包括但不限于中文阅读理解模型的改进、任务型对话系统的优化、情感分析算法的提升等。这些工作不仅在学术界产生了深远影响,也在工业界得到了广泛应用,推动了中文自然语言处理技术的不断创新和发展。
以上内容由遇见数据集搜集并总结生成



