VTechAGP

Name: VTechAGP
Creator: 弗吉尼亚理工大学
Published: 2024-11-08 00:06:00
License: 暂无描述

arXiv2024-11-08 更新2024-11-11 收录

下载链接：

https://vtechworks.lib.vt.edu/

下载链接

链接失效反馈

官方服务：

资源简介：

VTechAGP是由弗吉尼亚理工大学创建的学术到大众文本释义数据集，包含4938对学术和大众摘要，涵盖8个学院，跨越25年。数据集内容包括学术和大众摘要、标题、学科、学位级别等信息。创建过程涉及从VTechWorks通过OAI-PMH协议采集元数据，并映射到CSV文件。该数据集旨在解决学术文本向大众语言转换的问题，促进跨学科合作。

VTechAGP is an academic-to-popular text paraphrasing dataset developed by Virginia Tech. It comprises 4,938 pairs of academic and popular summaries, covering 8 academic colleges and spanning a 25-year timeframe. The dataset contains comprehensive metadata including academic and popular summaries, titles, academic disciplines, degree levels, and more. Its development involved harvesting metadata from VTechWorks via the OAI-PMH protocol and mapping the harvested data into CSV files. This dataset is designed to address the challenge of converting academic text into accessible popular language, and facilitate interdisciplinary collaboration.

提供机构：

弗吉尼亚理工大学

创建时间：

2024-11-08

搜集汇总

数据集介绍

构建方式

VTechAGP数据集的构建基于弗吉尼亚理工大学超过25年的电子论文和学位论文（ETDs）。该数据集包含了4,938对学术和面向大众的摘要，涵盖了8个学院。通过使用开放档案倡议元数据收割协议（OAI-PMH），从VTechWorks中提取了包含学术和面向大众摘要的元数据记录。这些记录被映射到CSV文件中的特定列，包括标识符URI、标题、摘要、面向大众的摘要、主题词、学科、部门、学位和学位级别等信息。

特点

VTechAGP数据集的显著特点是其文档级别的学术到大众文本的改写，涵盖了多个技术领域。此外，该数据集还提供了丰富的辅助信息，如标题、学科、学位级别等，这些信息为其他任务如主题生成等提供了潜在的应用价值。数据集中的摘要来自多个领域，并标注了每个特定领域的知识关键词，增强了数据集的多样性和专业性。

使用方法

VTechAGP数据集可用于训练和评估学术到大众文本改写的模型。研究者可以使用该数据集来开发和测试新的文本生成模型，特别是那些旨在简化技术语言以提高大众理解的模型。通过对比不同模型的表现，可以评估其在保留科学准确性和易理解性方面的效果。此外，数据集的辅助信息也可用于多任务学习，如主题生成和领域特定的文本简化。

背景与挑战

背景概述

VTechAGP数据集由弗吉尼亚理工大学（Virginia Tech）的研究人员创建，旨在解决学术文本向普通受众文本转化的难题。该数据集包含了4,938对学术论文摘要与面向普通受众的摘要，涵盖了8个学院，时间跨度超过25年。VTechAGP的创建标志着学术界首次针对学术文本到普通受众文本的转述任务构建了基准数据集，其核心研究问题是如何在保持科学准确性的同时，将复杂的学术语言转化为易于理解的普通语言。这一数据集的发布不仅填补了现有文本简化数据集在领域多样性和专业知识方面的空白，还为跨学科合作提供了新的可能性。

当前挑战

VTechAGP数据集在构建过程中面临多重挑战。首先，学术文本向普通受众文本的转述任务本身就是一个复杂的任务，要求在简化语言的同时保持内容的准确性和完整性。其次，数据集的构建需要从大量电子论文和学位论文中提取并配对学术摘要与普通受众摘要，这一过程涉及复杂的文本处理和数据清洗。此外，现有的预训练大型语言模型（LLMs）在处理这一特定任务时表现不佳，主要问题包括模型参数庞大、资源消耗高以及缺乏对特定任务的适应性。因此，开发轻量级且高效的模型成为解决这一挑战的关键。

常用场景

经典使用场景

VTechAGP数据集最经典的使用场景在于学术文本到面向大众文本的转述任务。该数据集包含了4,938对学术摘要和面向大众摘要，涵盖了多个学科领域，为研究者提供了一个丰富的资源库，用于开发和评估文本简化及转述模型。通过利用这些数据对，研究者可以训练模型，使其能够将复杂的学术语言转换为普通读者易于理解的语言，同时保持信息的准确性和科学性。

衍生相关工作

VTechAGP数据集的发布催生了一系列相关研究工作，特别是在文本生成和自然语言处理领域。例如，基于该数据集，研究者提出了动态软提示生成语言模型（DSPT5），通过对比生成损失函数和众采样解码策略，显著提升了文本转述的性能。此外，该数据集还激发了对现有预训练大语言模型（LLMs）在学术到大众文本转述任务中表现的深入研究，推动了相关评估指标和方法的创新。

数据集最近研究