CLUEDatasetSearch

github2020-03-02 更新2024-05-31 收录

下载链接：

https://github.com/latisoda/CLUEDatasetSearch

下载链接

链接失效反馈

官方服务：

资源简介：

中英文NLP数据集，涵盖NER、QA、情感分析、文本分类等多个领域，数据来源于多个机构，如北京极目云健康科技有限公司、医渡云（北京）技术有限公司等，数据集经过整理和标注，供研究者使用。

The Chinese-English NLP dataset encompasses various domains such as Named Entity Recognition (NER), Question Answering (QA), Sentiment Analysis, and Text Classification. The data is sourced from multiple institutions, including Beijing Jimum Cloud Health Technology Co., Ltd. and Yidu Cloud (Beijing) Technology Co., Ltd. The dataset has been meticulously organized and annotated for use by researchers.

创建时间：

2020-03-02

原始信息汇总

数据集概述

命名实体识别（NER）

数据集ID 1: CCKS2017中文电子病例命名实体识别
- 提供者: 北京极目云健康科技有限公司
- 数据来源: 云医院平台的真实电子病历数据，800条
- 语言: 中文
数据集ID 2: CCKS2018中文电子病例命名实体识别
- 提供者: 医渡云（北京）技术有限公司
- 数据量: 600份标注好的电子病历文本
- 语言: 中文
数据集ID 3: 微软亚研院MSRA命名实体识别识别数据集
- 提供者: MSRA
- 数据量: 46365条语料
- 语言: 中文
数据集ID 4: 1998人民日报语料集实体识别标注集
- 提供者: 人民日报
- 数据量: 23061条语料
- 语言: 中文
数据集ID 5: Boson
- 提供者: 玻森数据
- 数据量: 2000条语料
- 语言: 中文
数据集ID 6: CLUE Fine-Grain NER
- 提供者: CLUE
- 数据量: 训练集10748条，验证集1343条
- 语言: 中文
数据集ID 7: CoNLL-2003
- 提供者: CNTS - Language Technology Group
- 数据量: 包含PER, LOC, ORG和MISC四个类别
- 语言: 英文
数据集ID 8: 微博实体识别
- 提供者: https://github.com/hltcoe/golden-horse
- 语言: 中文
数据集ID 9: SIGHAN Bakeoff 2005
- 提供者: MSR/PKU
- 语言: 中文

问答（QA）

数据集ID 1: NewsQA
- 提供者: 微软研究院
- 数据量: 超过12000篇新闻文章和120,000答案
- 语言: 英文
数据集ID 2: SQuAD
- 提供者: 斯坦福
- 数据量: 由维基百科的一组文章上提出的问题组成
- 语言: 英文
数据集ID 3: SimpleQuestions
- 提供者: Facebook
- 数据量: 100K简单问题的回答
- 语言: 英文
数据集ID 4: WikiQA
- 提供者: 微软研究院
- 数据量: 3047个问题和29258个句子
- 语言: 英文
数据集ID 5: cMedQA
- 提供者: Zhang Sheng
- 数据量: 5.4万个问题，及对应的约10万个回答
- 语言: 中文
数据集ID 6: cMedQA2
- 提供者: Zhang Sheng
- 数据量: 约10万个医学相关问题，及对应的约20万个回答
- 语言: 中文
数据集ID 7: webMedQA
- 提供者: He Junqing
- 数据量: 6万个问题和31万个回答
- 语言: 中文
数据集ID 8: XQA
- 提供者: 清华大学
- 数据量: 9万多个问答，跨语言
- 语言: 多语言
数据集ID 9: AmazonQA
- 提供者: 亚马逊
- 数据量: 基于评论的QA模型任务
- 语言: 英文

情感分析

数据集ID 1: NLPCC2013
- 提供者: CCF
- 数据量: 14 000 条微博, 45 431句子
- 语言: 中文
数据集ID 2: NLPCC2014 Task1
- 提供者: CCF
- 数据量: 20000条微博
- 语言: 中文
数据集ID 3: NLPCC2014 Task2
- 提供者: CCF
- 数据量: 微博语料，标注了正面和负面
- 语言: 中文
数据集ID 4: Weibo Emotion Corpus
- 提供者: The Hong Kong Polytechnic University
- 数据量: 四万多条微博
- 语言: 中文
数据集ID 5: RenCECPs
- 提供者: Fuji Ren
- 数据量: 1500个博客，11000段落和35000句子
- 语言: 中文
数据集ID 6: weibo_senti_100k
- 提供者: 不详
- 数据量: 正负向评论约各 5 万条
- 语言: 中文
数据集ID 7: BDCI2018-汽车行业用户观点主题及情感识别
- 提供者: CCF
- 数据量: 汽车论坛中对汽车的评论
- 语言: 中文
数据集ID 8: AI Challenger 细粒度用户评论情感分析
- 提供者: 美团
- 数据量: 餐饮评论，6个一级属性，20个二级属性
- 语言: 中文
数据集ID 9: BDCI2019金融信息负面及主体判定
- 提供者: 中原银行
- 数据量: 金融领域新闻，每个样本标记了实体列表以及负面实体列表
- 语言: 中文
数据集ID 10: 之江杯电商评论观点挖掘大赛
- 提供者: 之江实验室
- 数据量: 商品评论中抽取商品属性特征和消费者观点
- 语言: 中文
数据集ID 11: 2019搜狐校园算法大赛
- 提供者: 搜狐
- 数据量: 给定若干文章，判断文章的核心实体以及对核心实体的情感态度
- 语言: 中文

文本分类

数据集ID 1: 2018“达观杯”文本智能处理挑战赛
- 提供者: 达观数据
- 数据量: 102275条样本，19个类别
- 语言: 中文
数据集ID 2: 今日头条中文新闻（文本）分类
- 提供者: 今日头条
- 数据量: 382688条样本，15个类别
- 语言: 中文
数据集ID 3: THUCNews中文文本分类
- 提供者: 清华大学
- 数据量: 74万篇新闻文档，14个类别
- 语言: 中文
数据集ID 4: 复旦大学中文文本分类
- 提供者: 复旦大学计算机信息与技术系国际数据库中心自然语言处理小组
- 数据量: 9804篇文档，20个类别
- 语言: 中文
数据集ID 5: 新闻标题短文本分类
- 提供者: chenfengshf
- 数据量: 38w条样本，15个类别
- 语言: 中文
数据集ID 6: 2017 知乎看山杯机器学习挑战赛
- 提供者: 中国人工智能学会;知乎
- 数据量: 300万个问题，1999个标签
- 语言: 中文
数据集ID 7: 2019之江杯-电商评论观点挖掘大赛
- 提供者: 之江实验室
- 数据量: 商品评论中抽取商品属性特征和消费者观点
- 语言: 中文
数据集ID 8: IFLYTEK 长文本分类
- 提供者: 科大讯飞
- 数据量: 1.7万多条关于app应用描述的长文本标注数据，119个类别
- 语言: 中文
数据集ID 9: 全网新闻分类数据(SogouCA)
- 提供者: 搜狗
- 数据量: 来自若干新闻站点2012年6月—7月期间国内，国际，体育，社会，娱乐等18个频道的新闻数据
- 语言: 中文
数据集ID 10: 搜狐新闻数据(SogouCS)
- 提供者: 搜狗
- 数据量: 来自搜狐新闻2012年6月—7月期间国内，国际，体育，社会，娱乐等18个频道的新闻数据
- 语言: 中文
数据集ID 11: 中科大新闻分类语料库
- 提供者: 刘禹中国科学院自动化研究所综合信息中心
- 数据量: 暂时不能下载，已经联系作者，等待反馈
- 语言: 中文
数据集ID 12: ChnSentiCorp_htl_all
- 提供者: https://github.com/SophonPlus/ChineseNlpCorpus
- 数据量: 7000 多条酒店评论数据，5000 多条正向评论，2000 多条负向评论
- 语言: 中文
数据集ID 13: waimai_10k
- 提供者: https://github.com/SophonPlus/ChineseNlpCorpus
- 数据量: 某外卖平台收集的用户评价，正向 4000 条，负向约 8000 条
- 语言: 中文
数据集ID 14: online_shopping_10_cats
- 提供者: https://github.com/SophonPlus/ChineseNlpCorpus
- 数据量: 10 个类别，共 6 万多条评论数据，正、负向评论各约 3 万条
- 语言: 中文
数据集ID 15: weibo_senti_100k
- 提供者: https://github.com/SophonPlus/ChineseNlpCorpus
- 数据量: 10 万多条，带情感标注新浪微博，正负向评论约各 5 万条
- 语言: 中文
数据集ID 16: simplifyweibo_4_moods
- 提供者: https://github.com/SophonPlus/ChineseNlpCorpus
- 数据量: 36 万多条，带情感标注新浪微博，包含 4 种情感
- 语言: 中文
数据集ID 17: dmsc_v2
- 提供者: https://github.com/SophonPlus/ChineseNlpCorpus
- 数据量: 28 部电影，超 70 万用户，超 200 万条评分/评论数据
- 语言: 中文
数据集ID 18: yf_dianping
- 提供者: https://github.com/SophonPlus/ChineseNlpCorpus
- 数据量: 24 万家餐馆，54 万用户，440 万条评论/评分数据
- 语言: 中文
数据集ID 19: yf_amazon
- 提供者: https://github.com/SophonPlus/ChineseNlpCorpus
- 数据量: 52 万件商品，1100 多个类目，142 万用户，720 万条评论/评分数据
- 语言: 中文

文本匹配

数据集ID 1: LCQMC
- 提供者: 哈工大(深圳)智能计算研究中心
- 数据量: 260068个中文问句对，相同询问意图的句子对标记为1，否则为0
- 语言: 中文
数据集ID 2: The BQ Corpus
- 提供者: 哈工大(深圳)智能计算研究中心；微众银行
- 数据量: 120000个句子对，来自银行一年中的咨询服务日志
- 语言: 中文

搜集汇总

数据集介绍

构建方式

CLUEDatasetSearch数据集的构建主要通过网络爬虫抓取的方式，从多个来源收集不同类型的文本数据，包括命名实体识别、问答、情感分析、文本分类、文本匹配等任务的数据集。这些数据集经过处理后，以统一的格式存储，便于用户查找和使用。

特点

CLUEDatasetSearch数据集的特点在于其多样性、全面性和可用性。它涵盖了多种NLP任务，提供了丰富的数据类型，包括文本、问答对、标注数据等，且数据来源广泛，涵盖了网络新闻、社交媒体、金融、电商等多个领域。此外，数据集还提供了详细的描述和元数据信息，便于用户理解和使用。

使用方法

用户可以通过CLUEDatasetSearch的搜索功能查找所需的数据集。在搜索结果中，用户可以查看数据集的详细描述、下载链接、使用许可等信息。用户可以根据自己的需求，选择合适的数据集进行下载和使用。对于有特殊需求的研究者，可以通过上传数据集信息的方式，贡献自己的数据集，并成为项目的贡献者。

背景与挑战

背景概述

CLUEDatasetSearch是一个中英文NLP数据集，旨在为研究人员提供方便的数据集整理与搜索服务。该数据集涵盖了多种NLP任务类型，如命名实体识别、问答、情感分析、文本分类、文本匹配等。数据集创建于2018年，由北京极目云健康科技有限公司、微软研究院、斯坦福大学等机构或个人提供数据。CLUEDatasetSearch的创建旨在推动自然语言处理领域的研究与应用，对相关领域产生了积极的影响。

当前挑战

数据集构建过程中遇到的挑战主要包括：1)数据的多样性与质量保证，需要确保收集的数据集在领域覆盖、数据标注质量、数据一致性等方面达到研究要求；2)数据集的搜索与管理系统开发，需要构建高效、易用的数据搜索与管理系统，以便研究人员能够快速找到所需数据；3)数据集的持续更新与维护，随着研究的不断发展，需要不断更新数据集内容，保持其前沿性和实用性。

常用场景

经典使用场景

CLUEDatasetSearch是一个中英文NLP数据集搜索平台，用户可以通过平台搜索到需要的中文NLP数据集，例如命名实体识别、问答、情感分析、文本分类、文本匹配等类型的数据集。其经典使用场景在于为研究者提供便捷的数据集检索服务，帮助研究者快速找到适用于自己研究的数据集。

衍生相关工作

基于CLUEDatasetSearch，研究者可以开展多种衍生的相关工作，例如开发新的NLP任务数据集、构建特定领域的NLP模型、进行跨语言的数据集对比研究等。

数据集最近研究