MultiPIT
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/MultiPIT
下载链接
链接失效反馈官方服务:
资源简介:
我们在Twitter (MultiPIT) 语料库中提出了一个新的多主题释义,它由总共130k个句子对组成,其中包含使用两种不同的释义定义进行释义识别的众包 (MultiPIT _ crowd) 和专家 (MultiPIT _ expert) 注释,除了用于释义生成的多参考测试集 (MultiPIT_NMR) 和大型自动构建的训练集 (MultiPIT_Auto) 之外。通过改进的数据注释质量和特定于任务的释义定义,在我们的数据集上微调的最佳预训练语言模型实现了84.2 F1自动释义识别的最先进性能。此外,我们的实证结果还表明,与在其他语料库 (如Quora,MSCOCO和ParaNMT) 上进行微调的同行相比,在MultiPIT_Auto上训练的释义生成模型生成了更多样化和高质量的释义。
提供机构:
OpenDataLab
创建时间:
2023-01-13



