five

microsoft/CLUES

收藏
Hugging Face2022-03-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/microsoft/CLUES
下载链接
链接失效反馈
官方服务:
资源简介:
CLUES数据集是一个用于自然语言理解中少样本学习评估的基准数据集。该数据集包含了多个任务,如SST-2、MNLI、CoNLL03、WikiANN、SQuAD-v2和ReCoRD,旨在评估模型在少量样本情况下的性能。数据集的使用要求包括在10、20和30个样本的情况下进行评估,并报告5个数据分割的平均值和标准差。
提供机构:
microsoft
原始信息汇总

CLUES: Few-Shot Learning Evaluation in Natural Language Understanding

数据集概述

CLUES是一个用于自然语言理解中少样本学习评估的基准数据集,发布于NeurIPS 2021。该数据集旨在评估模型在有限样本情况下的表现,特别关注10、20和30个样本的性能。

数据集结构

评估标准

  • 每个任务要求评估在10、20和30个样本下的表现。
  • 需要报告所有5个数据集分割的平均值和标准差。
  • 评估指标为30-shot的平均S1分数(S1分数是F1分数的一种变体)。

提交要求

  • 提交必须通过修改leaderboard的markdown文件的pull request进行。
  • 提交必须附带公开的论文和源代码,以重现结果。
  • 允许使用外部数据进行微调,但需标明使用的是外部标记数据还是未标记数据。

性能表现

数据集提供了多个模型的性能评估,包括但不限于:

  • Human: 人类表现基准。
  • T5-Large-770M-FT: 使用T5模型进行微调的结果。
  • BERT-Large-336M-FT: 使用BERT模型进行微调的结果。
  • GPT3-175B-ICL: 使用GPT-3模型进行上下文学习的结果。

任务细节

数据集涵盖了多个任务,每个任务都有详细的性能评估,例如:

  • SST-2: 情感分析任务。
  • MNLI: 自然语言推理任务。
  • CoNLL03: 命名实体识别任务。
  • WikiANN: 实体识别任务。
  • SQuAD-v2: 问答任务。
  • ReCoRD: 阅读理解任务。

每个任务都提供了不同模型的性能对比,以及在不同样本数量下的详细表现。

许可证

该数据集遵循MIT许可证。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作