wbbbbb/pclue

Name: wbbbbb/pclue
Creator: wbbbbb
Published: 2023-02-25 08:20:02
License: 暂无描述

Hugging Face2023-02-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/wbbbbb/pclue

下载链接

链接失效反馈

官方服务：

资源简介：

pCLUE是一个基于提示的大规模预训练数据集，用于多任务学习和零样本学习。数据集包含120万训练数据，73个Prompt，涵盖9个不同的任务类型，包括单分类、自然语言推理、语义匹配、指代消解、关键词识别和阅读理解等。数据集分为训练集、验证集和公开测试集，具体数据量分别为1,200,705、100,000和129,556。每个数据条目包含输入、目标、任务类型和答案选项（如果适用）。评价标准根据任务类型不同，包括准确率（acc）和精确匹配（em）。

提供机构：

wbbbbb

原始信息汇总

pCLUE

pCLUE: Large-scale Prompt-based Dataset for Multi-task and Zero-shot Learning in Chinese

pCLUE：基于提示的大规模预训练数据集，用于多任务学习和零样本学习

已转化数据集

数据量： 120万训练数据，73个Prompt

训练集 train.json: 1,200,705
验证集 dev.json: 100,000
公开测试集 test_public.json: 129,556
测试集 test.json: 250,461

具体数据，见：./datasets

目前已经有包含9个数据集：

单分类tnews
单分类iflytek
自然语言推理ocnli
语义匹配afqmc
指代消解-cluewsc2020
关键词识别-csl
阅读理解-自由式c3
阅读理解-抽取式cmrc2018
阅读理解-成语填空chid

字段说明及评价标准：

input: 模型的输入
target: 模型的输出
type: 任务类型，阅读理解(mrc), 分类(classify)，生成(generate)，自然语言推理(nli)
评价标准：阅读理解(em), 分类(acc)，生成(em)，自然语言推理(acc)
answer_choices: 选项（只有分类、推理类任务有）

提交样例：

见resources/promptclue_submit_examples。只需提交一个文件，每行是一个json，如：{"target": "2000万元"}

示例：

json {"input": "哪个类别最好的描述了这篇新闻？扣篮王拉文：精彩暴扣表演！炸选项：故事，文化，娱乐，体育，财经，房产，汽车，教育，科技，军事，旅游，国际，股票，农业，游戏答案：", "target": "电竞", "answer_choices": ["故事", "文化", "娱乐", "体育", "财经", "房产", "汽车", "教育", "科技", "军事", "旅游", "国际", "股票", "农业", "游戏"], "type": "classify"}

搜集汇总

数据集介绍

构建方式

pCLUE数据集通过大规模的提示（Prompt）驱动方式构建，涵盖了120万条训练数据和73个不同的Prompt。数据集包括训练集、验证集、公开测试集和测试集，分别包含1,200,705条、100,000条、129,556条和250,461条数据。数据集的构建基于多种任务类型，如分类、生成、自然语言推理等，涵盖了9个不同的子数据集，包括单分类、自然语言推理、阅读理解等任务。

使用方法

pCLUE数据集适用于多种自然语言处理任务，包括文本分类、生成、阅读理解等。用户可以通过加载数据集并根据任务类型进行训练和评估。数据集提供了详细的提交样例，用户只需提交一个包含目标输出的JSON文件即可。数据集的多样性和大规模训练数据使其成为研究多任务学习和零样本学习的理想选择。

背景与挑战

背景概述

pCLUE数据集是由中国研究人员创建的大规模中文预训练数据集，专注于多任务学习和零样本学习。该数据集于近年发布，旨在推动中文自然语言处理领域的发展，特别是通过提示（prompt）技术来提升模型的泛化能力。pCLUE包含了120万条训练数据和73个不同的提示任务，涵盖了多种自然语言处理任务，如分类、阅读理解、自然语言推理等。该数据集的发布对中文NLP领域的研究具有重要意义，为研究人员提供了一个丰富的资源来训练和评估模型。

当前挑战

pCLUE数据集在构建过程中面临了多个挑战。首先，如何设计有效的提示任务以覆盖多种自然语言处理任务是一个复杂的问题。其次，数据集的规模庞大，确保数据的质量和多样性是一个巨大的挑战。此外，零样本学习的实现需要模型具备高度的泛化能力，这对模型的训练和评估提出了更高的要求。最后，如何在中文语境下有效地应用提示技术，以提升模型的性能，也是一个亟待解决的问题。

常用场景

经典使用场景

pCLUE数据集在自然语言处理领域中广泛应用于多任务学习和零样本学习。其大规模的训练数据和多样化的任务类型，使得研究者能够训练出具有广泛适应性的模型，尤其在处理中文文本生成、分类、阅读理解等任务时表现出色。

解决学术问题

pCLUE数据集解决了中文自然语言处理中多任务学习和零样本学习的挑战。通过提供丰富的任务类型和大规模的训练数据，该数据集帮助研究者探索如何在无监督或少量标注数据的情况下，提升模型在多种任务上的表现，推动了中文NLP技术的发展。

实际应用

pCLUE数据集在实际应用中具有广泛的价值，尤其在智能客服、文本生成、信息检索等领域。通过训练多任务模型，企业可以更高效地处理多种自然语言处理任务，提升用户体验和服务质量。此外，零样本学习的能力使得模型在面对新任务时无需额外训练，极大地提高了应用的灵活性。

数据集最近研究