LongKey Datasets

github2024-11-28 更新2024-12-06 收录

下载链接：

https://github.com/jeohalves/longkey

下载链接

链接失效反馈

官方服务：

资源简介：

LongKey数据集用于长文档的关键短语提取任务。这些数据集经过预处理，可以直接用于训练和测试模型。

The LongKey Dataset is tailored for the keyphrase extraction task on long documents. It has been preprocessed and can be directly employed for model training and testing.

创建时间：

2024-11-24

原始信息汇总

LongKey 数据集概述

数据集下载

预处理数据集可从以下链接下载：https://www.dropbox.com/scl/fo/y1rogglqyxfc3fj2osxv1/ACNpcsGhYhvE2iFotccdGQM?rlkey=9flmvgyjb4c4ag583lqulga57&st=yjbexo12&dl=0
预训练权重可从以下链接下载：https://www.dropbox.com/scl/fo/kn08j9po6yi0uxbgs3bvf/ADKicMiqf_sNKWSZy74_uvA?rlkey=6wnseu90wf8h1gpu8w3hgjs90&st=xf04i4qz&dl=0

数据集预处理

原始数据集的预处理指令可在 preprocess/README.md 文件中找到。

数据集使用

数据集路径需在训练和测试脚本中指定，例如：

python train.py +exp=ldkp3k dir.data=PATH/TO/DATASETS_DIR data.dataset=ldkp3k dir.exp=PATH_TO/EXPERIMENTS_DIR model.method=longkey
支持多数据集评估，例如：

python test.py --multirun dir.data=PATH/TO/DATASETS_DIR data.dataset=ldkp3k,ldkp10k dir.exp=PATH_TO/EXPERIMENTS_DIR exp.name=EXP_NAME

数据集配置

支持多种方法配置，例如：

model.method=longkey model.method=joint model.method=rank model.method=chunk model.method=span model.method=tag model.method=hypermatch
支持自定义配置文件，路径需指定为绝对路径。

数据集训练

训练脚本为 train.py，支持分布式训练和多GPU训练。
训练参数可在 config 目录中查看。

数据集测试

测试脚本为 test.py，支持多GPU测试和多数据集评估。
测试时需指定实验文件夹中的 config.yaml 文件。

搜集汇总

数据集介绍

构建方式

LongKey数据集的构建基于对长文档的关键短语提取任务。该数据集通过预处理原始数据集，将其转换为适用于关键短语提取的格式。预处理步骤包括文本清洗、分词和标注等，确保数据集的质量和一致性。此外，数据集还支持多种优化器和调度器的实现，以适应不同的训练需求。

特点

LongKey数据集的主要特点在于其针对长文档的优化设计。数据集不仅支持多种模型方法，如LongKey、Joint、Rank等，还提供了对多语言和BIO格式数据集的支持。此外，数据集的构建考虑了分布式训练的需求，支持多GPU并行处理，从而提高了训练效率。

使用方法

使用LongKey数据集时，用户首先需要下载预处理后的数据集或自行进行数据预处理。随后，通过train.py脚本进行模型训练，支持多种配置参数的调整，如模型方法、批量大小和梯度累积步数等。测试阶段，用户可通过test.py脚本加载训练好的模型进行评估，支持多数据集的并行测试。

背景与挑战

背景概述

LongKey Datasets是由Jeovane Honorio Alves、Radu State、Cinthia Obladen de Almendra Freitas和Jean Paul Barddal等研究人员于2024年创建的，旨在解决长文档中的关键短语提取问题。该数据集的构建基于其同名论文《LongKey: Keyphrase Extraction for Long Documents》，该论文已在arXiv上发布。LongKey Datasets的推出，标志着在自然语言处理领域中，长文档处理技术的一次重要进步，特别是在关键短语提取方面，为研究人员提供了一个标准化的测试平台。

当前挑战

LongKey Datasets在构建过程中面临多项挑战。首先，长文档的关键短语提取本身就是一个复杂的问题，涉及文本的深度理解和模式识别。其次，数据集的预处理和标准化过程需要高度的技术精确性，以确保数据的质量和一致性。此外，支持多种优化器和调度器的实现、多语言支持的整合以及与HuggingFace等平台的集成，都是该数据集未来发展中需要克服的技术难题。

常用场景

经典使用场景

在自然语言处理领域，LongKey数据集的经典使用场景主要集中在长文档的关键短语提取任务中。该数据集通过提供丰富的长文档样本及其对应的关键短语标注，使得研究人员能够开发和验证针对长文档的关键短语提取算法。例如，研究者可以利用该数据集训练模型，以自动识别和提取长文档中的重要信息片段，这对于信息检索、文本摘要和知识图谱构建等任务具有重要意义。

实际应用

在实际应用中，LongKey数据集的应用场景广泛，包括但不限于学术文献管理、法律文档分析和医疗报告处理等。例如，在学术文献管理中，利用LongKey数据集训练的模型可以自动提取文献中的关键短语，帮助研究人员快速定位和理解文献的核心内容。在法律文档分析中，该数据集支持的模型能够高效提取法律条款中的关键信息，提高法律分析的效率和准确性。

衍生相关工作

LongKey数据集的发布催生了多项相关研究工作，特别是在长文档处理和关键短语提取领域。例如，基于LongKey数据集的研究者们开发了多种改进的关键短语提取算法，如BERT-KPE和HyperMatch的优化版本。此外，该数据集还促进了多语言支持、跨领域应用和模型优化等方面的研究，为自然语言处理领域的进一步发展提供了丰富的实验基础和理论支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集