kobe1987/DLLM2TM
收藏Hugging Face2024-03-09 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/kobe1987/DLLM2TM
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于论文《DISTILLING LARGE LANGUAGE MODELS INTO TINY MODELS FOR NAMED ENTITY RECOGNITION》中的命名实体识别任务。数据集中包含多个文件,包括使用GPT4进行命名实体标注的Excel文件、实验设置和评估结果的Excel文件、用于训练和评估的Excel数据文件、以及Jupyter Notebook代码文件。这些文件记录了从GPT4标注到模型训练和评估的整个过程,以及混合策略的权重衰减曲线。
该数据集用于论文《DISTILLING LARGE LANGUAGE MODELS INTO TINY MODELS FOR NAMED ENTITY RECOGNITION》中的命名实体识别任务。数据集中包含多个文件,包括使用GPT4进行命名实体标注的Excel文件、实验设置和评估结果的Excel文件、用于训练和评估的Excel数据文件、以及Jupyter Notebook代码文件。这些文件记录了从GPT4标注到模型训练和评估的整个过程,以及混合策略的权重衰减曲线。
提供机构:
kobe1987
原始信息汇总
数据集概述
该数据集用于论文《DISTILLING LARGE LANGUAGE MODELS INTO TINY MODELS FOR NAMED ENTITY RECOGNITION》。数据集目录中包含7个文件,简要描述如下:
文件介绍
Output_of_LLM.xlsx
- 使用GPT4对CONLL和BBC数据进行命名实体标注。
- 采用标准提示和CoT提示策略。
- 文件包含原始数据、真实标签(仅CONLL)、GPT标注结果和CoT推理过程。
experiment_setting_evaluation_result.xlsx
- 包含4个工作表。
- 第一个工作表记录实验安排,共190行,包括混合策略的蒸馏数据和原始数据数量及性能记录。
- 其余工作表记录第二和第三阶段的评估性能。
Data_for_training_and_evaluating.xlsx
- 用于论文中的训练和评估数据。
- 包括从CONLL2003蒸馏的CONLL数据、CONLL和BBC的蒸馏组合、CONLL训练集的原始数据和CONLL测试集。
- 4个工作表提供第二和第三阶段的训练和测试数据基础。
Some Jupyter Notebooks
- 论文中的代码,以Jupyter Notebook形式提供。
- 包括第一阶段的LLM标注、第二和第三阶段的蒸馏和原始数据训练与评估,以及论文中提到的混合策略。
weight_decay_curves.pdf
- 不同混合策略下w_0(蒸馏数据采样比例)的衰减曲线。



