microsoft/CLUES
收藏Hugging Face2022-03-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/microsoft/CLUES
下载链接
链接失效反馈官方服务:
资源简介:
CLUES数据集是一个用于自然语言理解中少样本学习评估的基准数据集。该数据集包含了多个任务,如SST-2、MNLI、CoNLL03、WikiANN、SQuAD-v2和ReCoRD,旨在评估模型在少量样本情况下的性能。数据集的使用要求包括在10、20和30个样本的情况下进行评估,并报告5个数据分割的平均值和标准差。
提供机构:
microsoft
原始信息汇总
CLUES: Few-Shot Learning Evaluation in Natural Language Understanding
数据集概述
CLUES是一个用于自然语言理解中少样本学习评估的基准数据集,发布于NeurIPS 2021。该数据集旨在评估模型在有限样本情况下的表现,特别关注10、20和30个样本的性能。
数据集结构
评估标准
- 每个任务要求评估在10、20和30个样本下的表现。
- 需要报告所有5个数据集分割的平均值和标准差。
- 评估指标为30-shot的平均S1分数(S1分数是F1分数的一种变体)。
提交要求
- 提交必须通过修改leaderboard的markdown文件的pull request进行。
- 提交必须附带公开的论文和源代码,以重现结果。
- 允许使用外部数据进行微调,但需标明使用的是外部标记数据还是未标记数据。
性能表现
数据集提供了多个模型的性能评估,包括但不限于:
- Human: 人类表现基准。
- T5-Large-770M-FT: 使用T5模型进行微调的结果。
- BERT-Large-336M-FT: 使用BERT模型进行微调的结果。
- GPT3-175B-ICL: 使用GPT-3模型进行上下文学习的结果。
任务细节
数据集涵盖了多个任务,每个任务都有详细的性能评估,例如:
- SST-2: 情感分析任务。
- MNLI: 自然语言推理任务。
- CoNLL03: 命名实体识别任务。
- WikiANN: 实体识别任务。
- SQuAD-v2: 问答任务。
- ReCoRD: 阅读理解任务。
每个任务都提供了不同模型的性能对比,以及在不同样本数量下的详细表现。
许可证
该数据集遵循MIT许可证。



