MSv2

Hugging Face2025-06-08 更新2025-06-09 收录

下载链接：

https://huggingface.co/datasets/AdityaMayukhSom/MSv2

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个更新和扩展的MixSub数据集，用于研究论文摘要的生成。数据集修复了原始数据集中的摘要和亮点问题，并新增了一个名为`HallucinatedHighlight`的列，用于幻觉分类。数据集包括PII、文章摘要、正确亮点和虚构亮点等字段。数据集分为训练集、验证集和测试集，适用于摘要任务，语言为英文，数据量在10K到100K之间。

创建时间：

2025-06-02

搜集汇总

数据集介绍

构建方式

在学术文本挖掘领域，MSv2数据集作为MixSub数据集的扩展版本，其构建过程基于科学文献的高亮摘要生成需求。研究人员通过修复原始数据集中破损的摘要和高亮内容，并引入名为HallucinatedHighlight的新列，增强了数据集的完整性与多样性。该数据集包含训练集、验证集和测试集，总计约2.1万条样本，确保了数据分布的合理性与实验的可靠性。

特点

MSv2数据集的核心特点体现在其多维度特征结构，包括PII、ArticleAbstract、CorrectHighlight和HallucinatedHighlight四个字段，覆盖了摘要生成与幻觉分类的双重任务需求。数据集规模适中，约10万条以下样本，语言为英文，适用于自然语言处理中的文本摘要研究。其MIT许可证支持学术与商业用途，促进了跨领域的应用探索。

使用方法

该数据集的使用聚焦于文本摘要与幻觉分类任务，用户可通过加载训练集进行模型训练，利用验证集调整超参数，并通过测试集评估性能。数据集支持指针生成网络与SciBERT嵌入等先进方法，适用于生成高质量摘要或检测文本幻觉。其结构化分割与标准格式便于集成到机器学习管道中，推动相关研究的可重复性与进展。

背景与挑战

背景概述

MSv2数据集作为MixSub数据集的扩展版本，由T. Rehman等研究人员于2023年构建，旨在推动学术文献自动摘要生成领域的发展。该数据集依托指针生成网络与SciBERT嵌入技术，专注于从研究论文中提取关键亮点，为自然语言处理社区提供了高质量的标注资源。其构建得到了IEEE Access期刊的认可，显著促进了科学文献摘要生成模型的训练与评估，对提升学术信息检索效率具有重要影响。

当前挑战

该数据集核心挑战在于解决学术摘要生成中的幻觉问题，即模型产生与原文不符的内容，这要求高精度的语义对齐与事实一致性验证。构建过程中，修复原始数据的摘要和亮点断裂问题增加了数据清洗的复杂性，同时新增的幻觉标注列需确保标注一致性与可靠性，涉及大规模人工校验与领域知识整合。

常用场景

经典使用场景

在学术文本挖掘领域，MSv2数据集被广泛用于训练和评估自动摘要生成模型。该数据集通过提供论文摘要与对应的高亮文本，为指针生成网络等序列到序列模型提供了理想的训练素材。研究者利用其结构化数据优化生成文本的连贯性和信息密度，显著提升了学术文献摘要的自动化水平。

衍生相关工作

基于MSv2数据集，研究者开发了多项创新工作。IEEE Access期刊发表的指针生成网络与SciBERT嵌入结合的方法成为代表性成果，后续研究在此基础上拓展了基于Transformer的摘要架构。该数据集还催生了针对学术文本幻觉检测的新研究方向，衍生出多篇关于生成文本可信度评估的重要论文。

数据集最近研究