five

kobe1987/DLLM2TM

收藏
Hugging Face2024-03-09 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/kobe1987/DLLM2TM
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于论文《DISTILLING LARGE LANGUAGE MODELS INTO TINY MODELS FOR NAMED ENTITY RECOGNITION》中的命名实体识别任务。数据集中包含多个文件,包括使用GPT4进行命名实体标注的Excel文件、实验设置和评估结果的Excel文件、用于训练和评估的Excel数据文件、以及Jupyter Notebook代码文件。这些文件记录了从GPT4标注到模型训练和评估的整个过程,以及混合策略的权重衰减曲线。

该数据集用于论文《DISTILLING LARGE LANGUAGE MODELS INTO TINY MODELS FOR NAMED ENTITY RECOGNITION》中的命名实体识别任务。数据集中包含多个文件,包括使用GPT4进行命名实体标注的Excel文件、实验设置和评估结果的Excel文件、用于训练和评估的Excel数据文件、以及Jupyter Notebook代码文件。这些文件记录了从GPT4标注到模型训练和评估的整个过程,以及混合策略的权重衰减曲线。
提供机构:
kobe1987
原始信息汇总

数据集概述

该数据集用于论文《DISTILLING LARGE LANGUAGE MODELS INTO TINY MODELS FOR NAMED ENTITY RECOGNITION》。数据集目录中包含7个文件,简要描述如下:

文件介绍

Output_of_LLM.xlsx

  • 使用GPT4对CONLL和BBC数据进行命名实体标注。
  • 采用标准提示和CoT提示策略。
  • 文件包含原始数据、真实标签(仅CONLL)、GPT标注结果和CoT推理过程。

experiment_setting_evaluation_result.xlsx

  • 包含4个工作表。
  • 第一个工作表记录实验安排,共190行,包括混合策略的蒸馏数据和原始数据数量及性能记录。
  • 其余工作表记录第二和第三阶段的评估性能。

Data_for_training_and_evaluating.xlsx

  • 用于论文中的训练和评估数据。
  • 包括从CONLL2003蒸馏的CONLL数据、CONLL和BBC的蒸馏组合、CONLL训练集的原始数据和CONLL测试集。
  • 4个工作表提供第二和第三阶段的训练和测试数据基础。

Some Jupyter Notebooks

  • 论文中的代码,以Jupyter Notebook形式提供。
  • 包括第一阶段的LLM标注、第二和第三阶段的蒸馏和原始数据训练与评估,以及论文中提到的混合策略。

weight_decay_curves.pdf

  • 不同混合策略下w_0(蒸馏数据采样比例)的衰减曲线。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作