UNIST-Eunchan/NLP-Paper-to-QA-Generation
收藏Hugging Face2023-11-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/UNIST-Eunchan/NLP-Paper-to-QA-Generation
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过修改和适配allenai/QASPER数据集创建的,旨在从NLP论文的摘要和引言部分生成问答对。首先,从QASPER数据集中提取了每篇NLP论文的摘要和引言部分。同时,还提取了标记为问题和答案的行,这些行具有抽象答案而非提取性答案。数据集包含训练集、验证集和测试集,分别有421、211和320行数据。
该数据集是通过修改和适配allenai/QASPER数据集创建的,旨在从NLP论文的摘要和引言部分生成问答对。首先,从QASPER数据集中提取了每篇NLP论文的摘要和引言部分。同时,还提取了标记为问题和答案的行,这些行具有抽象答案而非提取性答案。数据集包含训练集、验证集和测试集,分别有421、211和320行数据。
提供机构:
UNIST-Eunchan
原始信息汇总
数据集概述
数据集信息
特征
Unnamed: 0: 整数类型question: 字符串类型answer: 字符串类型abstract: 字符串类型introduction: 字符串类型
数据分割
train: 421个样本,1844987字节validation: 211个样本,949747字节test: 320个样本,1403003字节
下载和数据集大小
- 下载大小: 2341682字节
- 数据集大小: 4197737字节
配置
default配置包含以下数据文件路径:train:data/train-*validation:data/validation-*test:data/test-*
许可
- MIT许可证
任务类别
- 摘要生成
- 问答
语言
- 英语
标签
- nlp-research-paper-abstract
- nlp-research-paper
- question-generation
数据集名称
- NLP_Papers_to_Question_Generation
数据集描述
- 从QASPER数据集中提取了NLP论文的摘要和引言部分。
- 仅提取了带有摘要答案而非抽取式答案的问题和答案行。
数据集来源
- 基于allenai/qasper数据集进行处理和应用。
用途
- 从研究论文生成问题
- 长文档摘要
- 基于问题的摘要
数据集创建
- 创建理由:长文档摘要数据集,尤其是研究论文摘要数据集非常有限。
- 调整现有数据以提供特定于NLP领域的问答对。
- 预计通过模型训练可以生成多个问答对。
- 未来将发布微调后的模型。



