ChineseGLUE

github2024-03-16 更新2024-05-31 收录

下载链接：

https://github.com/zhanlaoban/NLP_datasets_collection

下载链接

链接失效反馈

官方服务：

资源简介：

目前包含：1. LCQMC 口语化描述的语义相似度任务 2. XNLI 语言推断任务 3. TNEWS 今日头条中文新闻（短文本）分类 4. INEWS 互联网情感分析任务 5. THUCNEWS 长文本分类 6. iFLYTEK 长文本分类 7. DRCD 繁体阅读理解任务 8. CMRC2018 简体中文阅读理解任务 9. BQ 智能客服问句匹配 10. MSRANER 命名实体识别 11. CHID 成语阅读理解填空 12. CMNLI 语言推理任务

Currently includes: 1. LCQMC Semantic Similarity Task with colloquial descriptions 2. XNLI Language Inference Task 3. TNEWS Toutiao Chinese News (short text) Classification 4. INEWS Internet Sentiment Analysis Task 5. THUCNEWS Long Text Classification 6. iFLYTEK Long Text Classification 7. DRCD Traditional Chinese Reading Comprehension Task 8. CMRC2018 Simplified Chinese Reading Comprehension Task 9. BQ Intelligent Customer Service Query Matching 10. MSRANER Named Entity Recognition 11. CHID Idiom Reading Comprehension Fill-in-the-Blank 12. CMNLI Language Reasoning Task

创建时间：

2019-04-18

原始信息汇总

数据集概述

预训练中文词向量

Word2vec
- 100+ Chinese Word Vectors
  - 描述：上百种预训练中文词向量
  - 来源：Github
- Tencent AI Lab Embedding Corpus
  - 描述：中文词和短语的腾讯AI实验室嵌入语料库
  - 来源：URL

中文预训练模型

Chinese-BERT
- 来源：Github
Chinese-BERT-wwm
- 来源：Github
Chinese-XLNet
- 来源：Github1 和 Github2
Chinese-RoBERTa
- 来源：Github
Chinese-ALBERT
- 来源：Github1 和 Github2

中文语料库

大规模中文自然语言处理语料
- 描述：大规模中文自然语言处理语料
- 来源：Github
搜狗实验室语料集合
- 来源：语料数据
ChineseNlpCorpus
- 来源：Github
ChineseGLUE
- 描述：包含多个任务的中文GLUE数据集
- 来源：Github
- 包含任务：
  - LCQMC
  - XNLI
  - TNEWS
  - INEWS
  - THUCNEWS
  - iFLYTEK
  - DRCD
  - CMRC2018
  - BQ
  - MSRANER
  - CHID
  - CMNLI
LCSTS: 大规模中文短文本摘要数据集
- 描述：大规模中文短文本摘要数据集
- 来源：arXiv 和 Download
chinese-poetry: 最全中文诗歌古典文集数据库
- 来源：Github
SentiBridge: 中文实体情感知识库
- 来源：Github

英文语料库

GLUE
- 描述：包含多个任务的GLUE数据集
- 来源：Download
- 包含任务：
  - The Corpus of Linguistic Acceptability
  - The Stanford Sentiment Treebank
  - Microsoft Research Paraphrase Corpus
  - Semantic Textual Similarity Benchmark
  - Quora Question Pairs
  - MultiNLI Matched
  - MultiNLI Mismatched
  - Question NLI
  - Recognizing Textual Entailment
  - Winograd NLI
  - Diagnostics Main
SuperGLUE
- 描述：包含多个任务的SuperGLUE数据集
- 来源：Download
- 包含任务：
  - Broadcoverage Diagnostics
  - CommitmentBank
  - Choice of Plausible Alternatives
  - Multi-Sentence Reading Comprehension
  - Recognizing Textual Entailment
  - Words in Context
  - The Winograd Schema Challenge
  - BoolQ
  - Reading Comprehension with Commonsense Reasoning
  - Winogender Schema Diagnostics
IMDB Large Movie Review Dataset
- 描述：包含25,000个训练和测试的高度极化电影评论的数据集
- 来源：Download
SQuAD2.0
- 描述：斯坦福问答数据集
- 来源：Website

搜集汇总

数据集介绍

构建方式

ChineseGLUE数据集的构建基于多个中文自然语言处理任务，涵盖了语义相似度、语言推断、文本分类、情感分析、阅读理解等多个领域。该数据集通过整合已有的公开数据集，如LCQMC、XNLI、TNEWS等，形成了一个综合性的中文NLP基准测试平台。每个子数据集均经过严格的筛选和标注，确保其质量和多样性，为研究者提供了一个全面且具有挑战性的评估环境。

特点

ChineseGLUE数据集的特点在于其广泛的任务覆盖和高质量的数据标注。它不仅包含了短文本分类、长文本分类、情感分析等基础任务，还涵盖了阅读理解、命名实体识别、成语填空等复杂任务。数据集中的每个任务均基于真实场景，具有较高的实用性和研究价值。此外，ChineseGLUE还提供了丰富的预训练模型和词向量资源，为研究者提供了强大的工具支持。

使用方法

ChineseGLUE数据集的使用方法较为灵活，研究者可以根据具体任务需求选择相应的子数据集进行实验。数据集提供了详细的下载链接和任务说明，用户可以通过GitHub页面获取相关资源。在使用过程中，建议结合预训练模型如Chinese-BERT、Chinese-RoBERTa等进行微调，以获得更好的性能表现。此外，ChineseGLUE还支持与其他NLP工具和框架的集成，便于研究者进行多任务学习和模型对比。

背景与挑战

背景概述

ChineseGLUE数据集是由中国自然语言处理研究社区于2019年推出的一个综合性基准测试平台，旨在为中文自然语言处理任务提供标准化的评估框架。该数据集由多个子任务组成，涵盖了语义相似度、语言推断、文本分类、情感分析、命名实体识别、阅读理解等多个领域。ChineseGLUE的创建灵感来源于英文GLUE基准，但其专注于中文语言特性，填补了中文NLP领域缺乏统一评估标准的空白。该数据集的主要研究人员包括来自清华大学、哈尔滨工业大学等知名高校的学者，其发布极大地推动了中文NLP模型的研究与优化，成为该领域的重要参考工具。

当前挑战

ChineseGLUE数据集在解决中文自然语言处理任务时面临多重挑战。首先，中文语言的复杂性和多样性使得语义理解、文本分类等任务更具难度，尤其是在处理口语化表达、成语使用和多义词时。其次，数据集的构建过程中需要处理大规模中文语料的标注问题，确保数据的质量和一致性。此外，中文的语法结构与英文存在显著差异，直接移植英文NLP模型的效果往往不理想，因此需要开发专门针对中文的预训练模型和算法。最后，数据集的持续更新与维护也是一个重要挑战，需要不断纳入新的任务和语料，以反映中文NLP领域的最新需求和发展趋势。

常用场景

经典使用场景

ChineseGLUE数据集在自然语言处理领域中被广泛用于评估和提升中文语言模型的性能。该数据集包含了多种任务，如语义相似度、语言推断、文本分类和阅读理解等，为研究者提供了一个全面的基准测试平台。通过在这些任务上训练和测试模型，研究者能够深入理解模型在处理中文语言时的表现和局限性。

解决学术问题

ChineseGLUE数据集解决了中文自然语言处理中的多个关键学术问题。例如，通过LCQMC任务，研究者能够探索口语化描述的语义相似度问题；通过XNLI任务，可以深入研究语言推断的复杂性；而通过CMRC2018任务，则能够提升简体中文阅读理解的能力。这些任务的多样性使得ChineseGLUE成为推动中文NLP研究的重要工具。

衍生相关工作

ChineseGLUE数据集衍生了许多经典的研究工作。例如，基于LCQMC任务的研究提出了多种改进语义相似度计算的方法；基于XNLI任务的研究则推动了多语言推断模型的发展；而基于CMRC2018任务的研究则显著提升了中文阅读理解模型的性能。这些研究工作不仅丰富了中文NLP的理论体系，也为实际应用提供了有力的支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集