DIMPLE
收藏arXiv2024-04-06 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2305.16635v3
下载链接
链接失效反馈官方服务:
资源简介:
DIMPLE数据集是由华盛顿大学保罗·G·艾伦计算机科学与工程学院的研究团队通过创新的IMPOSSIBLE DISTILLATION框架从GPT2-scale语言模型中提取的,包含400,000个高质量的句子和段落摘要对。该数据集不仅在数量上超越了其他同类数据集,而且在多样性和忠实度上也表现出色,适用于多种自然语言处理任务,如无约束/语法控制的释义生成和句子摘要。DIMPLE的创建过程涉及利用预训练语言模型中的释义邻近性,通过一系列精细的过滤和自我蒸馏步骤,确保了数据集的高质量和实用性。该数据集的应用领域广泛,旨在解决自然语言处理中的复杂任务,如提高模型的释义能力和摘要生成效率。
提供机构:
保罗·G·艾伦计算机科学与工程学院,华盛顿大学
创建时间:
2023-05-26



