microsoft/CLUES

Name: microsoft/CLUES
Creator: microsoft
Published: 2022-03-25 22:05:58
License: 暂无描述

Hugging Face2022-03-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/microsoft/CLUES

下载链接

链接失效反馈

官方服务：

资源简介：

CLUES数据集是一个用于自然语言理解中少样本学习评估的基准数据集。该数据集包含了多个任务，如SST-2、MNLI、CoNLL03、WikiANN、SQuAD-v2和ReCoRD，旨在评估模型在少量样本情况下的性能。数据集的使用要求包括在10、20和30个样本的情况下进行评估，并报告5个数据分割的平均值和标准差。

提供机构：

microsoft

原始信息汇总

CLUES: Few-Shot Learning Evaluation in Natural Language Understanding

数据集概述

CLUES是一个用于自然语言理解中少样本学习评估的基准数据集，发布于NeurIPS 2021。该数据集旨在评估模型在有限样本情况下的表现，特别关注10、20和30个样本的性能。

数据集结构

评估标准

每个任务要求评估在10、20和30个样本下的表现。
需要报告所有5个数据集分割的平均值和标准差。
评估指标为30-shot的平均S1分数（S1分数是F1分数的一种变体）。

提交要求

提交必须通过修改leaderboard的markdown文件的pull request进行。
提交必须附带公开的论文和源代码，以重现结果。
允许使用外部数据进行微调，但需标明使用的是外部标记数据还是未标记数据。

性能表现

数据集提供了多个模型的性能评估，包括但不限于：

Human: 人类表现基准。
T5-Large-770M-FT: 使用T5模型进行微调的结果。
BERT-Large-336M-FT: 使用BERT模型进行微调的结果。
GPT3-175B-ICL: 使用GPT-3模型进行上下文学习的结果。

任务细节

数据集涵盖了多个任务，每个任务都有详细的性能评估，例如：

SST-2: 情感分析任务。
MNLI: 自然语言推理任务。
CoNLL03: 命名实体识别任务。
WikiANN: 实体识别任务。
SQuAD-v2: 问答任务。
ReCoRD: 阅读理解任务。

每个任务都提供了不同模型的性能对比，以及在不同样本数量下的详细表现。

许可证

该数据集遵循MIT许可证。

5,000+

优质数据集

54 个

任务类型

进入经典数据集