five

MultiPIT

收藏
OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/MultiPIT
下载链接
链接失效反馈
官方服务:
资源简介:
我们在Twitter (MultiPIT) 语料库中提出了一个新的多主题释义,它由总共130k个句子对组成,其中包含使用两种不同的释义定义进行释义识别的众包 (MultiPIT _ crowd) 和专家 (MultiPIT _ expert) 注释,除了用于释义生成的多参考测试集 (MultiPIT_NMR) 和大型自动构建的训练集 (MultiPIT_Auto) 之外。通过改进的数据注释质量和特定于任务的释义定义,在我们的数据集上微调的最佳预训练语言模型实现了84.2 F1自动释义识别的最先进性能。此外,我们的实证结果还表明,与在其他语料库 (如Quora,MSCOCO和ParaNMT) 上进行微调的同行相比,在MultiPIT_Auto上训练的释义生成模型生成了更多样化和高质量的释义。
提供机构:
OpenDataLab
创建时间:
2023-01-13
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
MultiPIT是一个多主题释义数据集,包含13万个句子对,通过众包和专家注释以及自动构建的训练集,用于改进释义识别和生成任务。在微调预训练模型后,该数据集实现了84.2 F1的先进性能,并能生成更优质、多样化的释义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作