kobe1987/DLLM2TM

Name: kobe1987/DLLM2TM
Creator: kobe1987
Published: 2024-03-09 15:20:02
License: 暂无描述

Hugging Face2024-03-09 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/kobe1987/DLLM2TM

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于论文《DISTILLING LARGE LANGUAGE MODELS INTO TINY MODELS FOR NAMED ENTITY RECOGNITION》中的命名实体识别任务。数据集中包含多个文件，包括使用GPT4进行命名实体标注的Excel文件、实验设置和评估结果的Excel文件、用于训练和评估的Excel数据文件、以及Jupyter Notebook代码文件。这些文件记录了从GPT4标注到模型训练和评估的整个过程，以及混合策略的权重衰减曲线。

提供机构：

kobe1987

原始信息汇总

数据集概述

该数据集用于论文《DISTILLING LARGE LANGUAGE MODELS INTO TINY MODELS FOR NAMED ENTITY RECOGNITION》。数据集目录中包含7个文件，简要描述如下：

文件介绍

Output_of_LLM.xlsx

使用GPT4对CONLL和BBC数据进行命名实体标注。
采用标准提示和CoT提示策略。
文件包含原始数据、真实标签（仅CONLL）、GPT标注结果和CoT推理过程。

experiment_setting_evaluation_result.xlsx

包含4个工作表。
第一个工作表记录实验安排，共190行，包括混合策略的蒸馏数据和原始数据数量及性能记录。
其余工作表记录第二和第三阶段的评估性能。

Data_for_training_and_evaluating.xlsx

用于论文中的训练和评估数据。
包括从CONLL2003蒸馏的CONLL数据、CONLL和BBC的蒸馏组合、CONLL训练集的原始数据和CONLL测试集。
4个工作表提供第二和第三阶段的训练和测试数据基础。

Some Jupyter Notebooks

论文中的代码，以Jupyter Notebook形式提供。
包括第一阶段的LLM标注、第二和第三阶段的蒸馏和原始数据训练与评估，以及论文中提到的混合策略。

weight_decay_curves.pdf

不同混合策略下w_0（蒸馏数据采样比例）的衰减曲线。

5,000+

优质数据集

54 个

任务类型

进入经典数据集