five

DIMPLE

收藏
arXiv2024-04-06 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2305.16635v3
下载链接
链接失效反馈
官方服务:
资源简介:
DIMPLE数据集是由华盛顿大学保罗·G·艾伦计算机科学与工程学院的研究团队通过创新的IMPOSSIBLE DISTILLATION框架从GPT2-scale语言模型中提取的,包含400,000个高质量的句子和段落摘要对。该数据集不仅在数量上超越了其他同类数据集,而且在多样性和忠实度上也表现出色,适用于多种自然语言处理任务,如无约束/语法控制的释义生成和句子摘要。DIMPLE的创建过程涉及利用预训练语言模型中的释义邻近性,通过一系列精细的过滤和自我蒸馏步骤,确保了数据集的高质量和实用性。该数据集的应用领域广泛,旨在解决自然语言处理中的复杂任务,如提高模型的释义能力和摘要生成效率。
提供机构:
保罗·G·艾伦计算机科学与工程学院,华盛顿大学
创建时间:
2023-05-26
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作