Common-NLP-Datasets

github2024-05-17 更新2024-05-31 收录

下载链接：

https://github.com/ares5221/Common-NLP-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

本项目用于收集整理常用的NLP数据集，包括chatbot、文本分类等多个领域的数据集，每个数据集都有详细的描述和下载链接。

This project is dedicated to the collection and organization of commonly used NLP datasets, encompassing various domains such as chatbots and text classification. Each dataset is accompanied by a detailed description and a download link.

创建时间：

2020-05-12

原始信息汇总

文本分类数据集概述

1. 2018“达观杯”文本智能处理挑战赛

提供者: 达观数据
数据内容: 长文本分类任务，包括id，article，word_seg和class四个字段，数据包含19个类别，共102275条样本
类别: 文本分类

2. 今日头条中文新闻（文本）分类

提供者: 今日头条
数据内容: 短文本分类任务，数据包含15个类别，共382688条样本
类别: 文本分类

3. THUCNews中文文本分类

提供者: 清华大学
数据内容: 根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，共74万篇新闻文档（2.19 GB），包含14个分类类别
类别: 文本分类

4. 复旦大学中文文本分类

提供者: 复旦大学计算机信息与技术系国际数据库中心自然语言处理小组
数据内容: 短文本分类任务，数据包含20个类别，共9804篇文档
类别: 文本分类

5. 新闻标题短文本分类

提供者: chenfengshf
数据内容: 新闻标题领域短文本分类任务，数据包含15个类别，共38w条样本
类别: 文本分类

6. 2017 知乎看山杯机器学习挑战赛

提供者: 中国人工智能学会;知乎
数据内容: 问题及话题标签的绑定关系的标注数据，每个问题有 1 个或多个标签，累计1999 个标签，共包含 300 万个问题
类别: 文本分类

7. 2019之江杯-电商评论观点挖掘大赛

提供者: 之江实验室
数据内容: 商品评论中抽取商品属性特征和消费者观点，并确认其情感极性和属性种类
类别: 文本分类

8. IFLYTEK 长文本分类

提供者: 科大讯飞
数据内容: 关于app应用描述的长文本标注数据，包含和日常生活相关的各类应用主题，共119个类别
类别: 文本分类

9. 全网新闻分类数据(SogouCA)

提供者: 搜狗
数据内容: 来自若干新闻站点2012年6月—7月期间国内，国际，体育，社会，娱乐等18个频道的新闻数据
类别: 文本分类

10. 搜狐新闻数据(SogouCS)

提供者: 搜狗
数据内容: 数据来源为搜狐新闻2012年6月—7月期间国内，国际，体育，社会，娱乐等18个频道的新闻数据
类别: 文本分类

11. 中科大新闻分类语料库

提供者: 刘禹中国科学院自动化研究所综合信息中心
数据内容: 暂时不能下载，已经联系作者，等待反馈
类别: 文本分类

12. ChnSentiCorp_htl_all

提供者: 携程网
数据内容: 7000 多条酒店评论数据，5000 多条正向评论，2000 多条负向评论
类别: 情感/观点/评论倾向性分析

13. waimai_10k

提供者: 某外卖平台
数据内容: 用户评价，正向 4000 条，负向约 8000 条
类别: 情感/观点/评论倾向性分析

14. online_shopping_10_cats

提供者: 某电商平台
数据内容: 10 个类别，共 6 万多条评论数据，正、负向评论各约 3 万条
类别: 情感/观点/评论倾向性分析

15. weibo_senti_100k

提供者: 新浪微博
数据内容: 10 万多条，带情感标注新浪微博，正负向评论约各 5 万条
类别: 情感/观点/评论倾向性分析

16. simplifyweibo_4_moods

提供者: 新浪微博
数据内容: 36 万多条，带情感标注新浪微博，包含 4 种情感，其中喜悦约 20 万条，愤怒、厌恶、低落各约 5 万条
类别: 情感/观点/评论倾向性分析

17. dmsc

提供者: 某电影平台
数据内容: 28 部电影，超 70 万用户，超 200 万条评分/评论数据
类别: 可用于推荐系统

18. yf_dianping

提供者: 某点评平台
数据内容: 24 万家餐馆，54 万用户，440 万条评论/评分数据
类别: 可用于推荐系统

19. yf_amazon

提供者: 某电商平台
数据内容: 52 万件商品，1100 多个类目，142 万用户，720 万条评论/评分数据
类别: 可用于推荐系统

文本匹配数据集概述

1. LCQMC

提供者: 哈工大(深圳)智能计算研究中心
数据内容: 260068个中文问句对，相同询问意图的句子对标记为1，否则为0
类别: 短文本匹配；问句匹配

2. The BQ Corpus

提供者: 哈工大(深圳)智能计算研究中心；微众银行
数据内容: 120000个句子对，来自银行一年中的咨询服务日志
类别: 短文本匹配；问句一致性检测

3. ATEC 蚂蚁金融语义相似度

提供者: 蚂蚁金服
数据内容: 提供10万对的标注数据，包括同义对和不同义对
类别: 短文本匹配；问句匹配

4. 第三届拍拍贷“魔镜杯”大赛

提供者: 拍拍贷智慧金融研究院
数据内容: train.csv文件包含3列，分别是标签（label），问题1的编号（q1）和问题2的编号（q2）
类别: 短文本匹配；问句匹配

5. CAIL2019相似案例匹配大赛

提供者: 清华大学；中国裁判文书网
数据内容: 对于每份数据，用三元组(A,B,C)来代表该组数据，其中A,B,C均对应某一篇文书
类别: 长文本匹配

6. CCKS 2018 微众银行智能客服问句匹配大赛

提供者: 哈工大(深圳)智能计算研究中心；微众银行
数据内容: 银行服务问句；意图匹配
类别: 短文本匹配；问句匹配

7. ChineseTextualInference

提供者: 刘焕勇，中国科学院软件研究所
数据内容: 中文文本推断项目,包括88万文本蕴含中文文本蕴含数据集的翻译与构建
类别: 中文文本推断；文本蕴含

8. NLPCC-DBQA

提供者: NLPCC
数据内容: 给定问题-答案，以及该答案是否是该问题的答案之一的标记，1表示是，0表示不是
类别: 问答匹配

9. “技术需求”与“技术成果”项目之间关联度计算模型

提供者: CCF
数据内容: 给定文本形式的技术需求和技术成果，以及需求与成果的关联度标签
类别: 长文本匹配

10. CNSD / CLUE-CMNLI

提供者: ZengJunjun
数据内容: 中文自然语言推理数据集，本数据及通过翻译加部分人工修正的方法，从英文原数据集生成
类别: 中文自然语言推断

11. cMedQA v1.0

提供者: 寻药寻医网和国防科技大学信息系统及管理学院
数据内容: 该数据集来源为寻医寻药网站中的提问和回答，数据集做过匿名处理
类别: 医疗问答匹配

12. cMedQA2

提供者: 寻药寻医网和国防科技大学信息系统及管理学院
数据内容: 该数据集来源为寻医寻药网站中的提问和回答，数据集做过匿名处理
类别: 医疗问答匹配

13. ChineseSTS

提供者: 唐善成, 白云悦, 马付玉. 西安科技大学
数据内容: 该数据集提供了12747对中文相似数据集，在数据集后作者给出了他们相似度的打分
类别: 相似度匹配

14. 中国健康信息处理会议举办的医疗问题相似度衡量竞赛数据集

提供者: CHIP 2018-第四届中国健康信息处理会议（CHIP）
数据内容: 本次评测任务的主要目标是针对中文的真实患者健康咨询语料，进行问句意图匹配
类别: 医疗问题相似度匹配

15. COS960: A Chinese Word Similarity Dataset of 960 Word Pairs

提供者: 清华大学
数据内容: 该数据集中包含了960对单词，并且每对单词都被15个母语者用相似度分数来衡量
类别: 同义词

16. [OPPO手机搜索排序query-title语义匹配数据集。](https://pan.baidu.com/s/1Hg2Hubsn3GEuu4gubbHCzw 密码7p3n)

提供者: OPPO
数据内容: 该数据集来自于OPPO手机搜索排序优化实时搜索场景
类别: 相似度匹配

17. 网页搜索结果评价(SogouE)

提供者: 搜狗
数据内容: 该数据集包含了查询词，相关URL以及查询类别的搜索数据
类别: 查询类型匹配预测

多轮对话数据集概述

1. Emotional First Aid Dataset

提供者: 北京华夏春松科技有限公司
数据内容: 心理咨询问答语料库，包括 20,000 条心理咨询数据，也是公开的最大的中文心理咨询对话语料
类别: 多轮对话；心理咨询

2. Chinese-Psychological-QA-DataSet

提供者: 壹心理
数据内容: 102845 条社区问答对
类别: 中文心理问答数据集

搜集汇总

数据集介绍

构建方式

Common-NLP-Datasets数据集的构建方式主要通过收集和整理多个公开的中文自然语言处理（NLP）数据集。这些数据集涵盖了从开放领域的闲聊数据到特定领域的文本分类、文本匹配和多轮对话等多种任务。数据来源包括各大竞赛、研究机构以及企业提供的公开数据，如达观数据、今日头条、清华大学等。每个数据集都经过详细的标注和分类，确保数据的多样性和实用性。

特点

该数据集的特点在于其广泛性和多样性。它包含了多种类型的NLP任务数据，如文本分类、文本匹配和多轮对话，适用于不同的研究需求。数据集的规模从几千条到几十万条不等，覆盖了从短文本到长文本的多种形式。此外，数据集的来源广泛，包括竞赛数据、新闻数据、社交媒体数据等，确保了数据的丰富性和代表性。

使用方法

使用Common-NLP-Datasets数据集时，用户可以根据具体的研究任务选择合适的数据集。对于文本分类任务，可以选择如达观杯、今日头条等数据集；对于文本匹配任务，可以选择LCQMC、BQ Corpus等数据集；对于多轮对话任务，可以选择Emotional First Aid Dataset等数据集。每个数据集通常包含训练集、验证集和测试集，用户可以直接下载并用于模型训练和评估。

背景与挑战

背景概述

Common-NLP-Datasets项目由一群致力于自然语言处理（NLP）研究的开发者发起，旨在收集和整理常用的中文NLP数据集。该项目涵盖了多个领域，包括文本分类、文本匹配和多轮对话等，数据集来源广泛，涉及新闻、社交媒体、电商平台等多个领域。主要研究人员或机构包括哈工大、清华大学、复旦大学等知名学术机构，以及达观数据、今日头条等业界领先企业。这些数据集的创建时间跨度较大，从2012年到2020年不等，涵盖了多个NLP任务的核心研究问题，如文本分类、情感分析、问答系统等。这些数据集的发布对推动中文NLP技术的发展具有重要意义，为研究人员提供了丰富的资源，促进了相关领域的研究进展。

当前挑战

Common-NLP-Datasets项目在构建过程中面临多项挑战。首先，数据集的多样性和复杂性使得数据清洗和标注工作异常繁琐，尤其是涉及多轮对话和情感分析的数据集，标注的准确性和一致性要求极高。其次，部分数据集来源于真实场景，如电商平台和社交媒体，这些数据往往包含大量噪声和非结构化信息，增加了数据处理的难度。此外，数据集的版权和隐私问题也是一大挑战，尤其是在处理用户生成内容时，如何确保数据的合法性和隐私保护成为关键问题。最后，随着NLP技术的快速发展，如何保持数据集的时效性和适用性，以适应不断变化的研究需求，也是一个持续的挑战。

常用场景

经典使用场景

Common-NLP-Datasets数据集在自然语言处理领域中广泛应用于多种经典场景，尤其是在文本分类和情感分析任务中。例如，该数据集包含了多个中文新闻分类数据集，如THUCNews和今日头条中文新闻分类数据集，这些数据集常用于训练和评估文本分类模型，帮助模型学习如何将新闻文本准确分类到不同的主题类别中。此外，数据集中的情感分析数据集，如ChnSentiCorp_htl_all和weibo_senti_100k，常用于情感倾向性分析，帮助模型识别文本中的情感极性，如正面、负面或中性。

解决学术问题

Common-NLP-Datasets数据集在学术研究中解决了多个关键问题，特别是在中文自然语言处理领域。首先，它为文本分类研究提供了丰富的数据资源，帮助研究人员开发和验证新的分类算法，从而提高文本分类的准确性和效率。其次，数据集中的情感分析数据集为情感计算研究提供了基础，使得研究人员能够探索情感识别和情感生成的新方法。此外，该数据集还支持多轮对话和问答系统的研究，为构建更加智能和自然的对话系统提供了数据支持。

衍生相关工作

Common-NLP-Datasets数据集的发布和使用催生了一系列相关的经典工作。例如，基于该数据集的文本分类研究推动了多种先进的分类算法的开发，如深度学习模型在文本分类中的应用。情感分析数据集的使用促进了情感计算领域的发展，包括情感识别和情感生成技术的进步。此外，数据集中的对话数据集为多轮对话系统和问答系统的研究提供了基础，推动了对话管理和自然语言理解技术的创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集