five

PaperRQ-HumanAnno-Dataset

收藏
arXiv2024-09-11 更新2024-09-14 收录
下载链接:
https://github.com/auto-res/PaperRQ-HumanAnno-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
PaperRQ-HumanAnno-Dataset是由日本先进科学技术研究所等机构创建的一个专门用于评估研究问题提取任务的数据集。该数据集包含104篇机器学习论文的摘要和引言,以及由GPT-4提取的研究问题和人工评估的分数。数据集的创建过程涉及复杂的标注任务,要求标注者从论文中提取关键信息并评估提取的研究问题。该数据集主要用于开发和优化针对研究问题提取任务的评估函数,旨在提高自动提取研究问题的准确性和可靠性。
提供机构:
日本先进科学技术研究所, 独立研究者, 日本先进工业科学技术研究所, OMRON SINIC X公司
创建时间:
2024-09-11
搜集汇总
数据集介绍
main_image_url
构建方式
PaperRQ-HumanAnno-Dataset 是一个专门为研究论文中研究问题(RQ)的提取任务而构建的数据集。该数据集包含了104篇自2016年至2023年期间被ACL接受的长论文,这些论文都提出了针对特定问题的解决方案。数据集的构建过程涉及使用GPT-4从每篇论文的摘要和引言中提取三个不同质量的研究问题,并收集了人类对提取出的研究问题质量的评估分数。这些评估分数考虑了研究问题是否准确估计了论文中的真实问题和方法,以及研究问题是否符合特定的格式。
特点
PaperRQ-HumanAnno-Dataset 的特点在于其专注于研究论文这一特定领域,并提供了由GPT-4提取的研究问题和人类评估的对照数据。这使得数据集能够用于评估和比较现有的大语言模型(LLM)评估函数在研究问题理解评价任务中的表现。数据集中的研究问题质量评估分数为三个维度:问题分数、方法分数和研究问题类型。此外,数据集还考虑了不同提示对研究问题提取质量的影响,以及不同数量的评估步骤对性能的影响。
使用方法
使用PaperRQ-HumanAnno-Dataset,研究者可以比较现有LLM评估函数与人类评估之间的相关性。数据集中的研究问题质量评估分数可以用于训练和评估LLM模型,以优化研究问题的提取性能。此外,数据集还可以用于开发专门针对研究问题评价的评估函数,并探索LLM模型在研究问题提取任务中的性能提升策略。
背景与挑战
背景概述
在文本摘要技术的快速进步中,从高度专业化的文档中准确提取和总结必要信息的研究并未得到充分探究。本研究专注于从研究论文中提取研究问题(RQ)的任务,并构建了一个新的数据集,其中包括机器学习论文、由GPT-4从这些论文中提取的RQ以及从多个角度对提取的RQ进行的人类评估。通过使用这个数据集,我们系统地比较了最近提出的基于LLM的评价函数,发现这些函数与人类评估的相关性并不高。我们期望我们的数据集为开发更适合RQ提取任务的评估函数奠定基础,并有助于提高该任务的性能。
当前挑战
数据集当前面临的挑战包括:1)所解决的领域问题的挑战,即如何准确提取和总结研究论文中的必要信息;2)构建过程中所遇到的挑战,包括如何设计合适的评估函数,以准确测量摘要的性能改进,以及如何确保自动评估函数与人类评估的相关性。
常用场景
经典使用场景
PaperRQ-HumanAnno-Dataset 主要用于评估基于语言模型的评估函数在研究问题提取任务上的表现。该数据集包含了从机器学习论文中提取的研究问题(RQ)、由 GPT-4 提取的 RQ 以及人类从多个角度对提取的 RQ 进行评估的结果。使用该数据集,可以系统地比较最近提出的基于语言模型的评估函数,并发现这些函数与人类评估的关联性并不高。该数据集为开发更适用于 RQ 提取任务的评估函数奠定了基础,有助于提高任务性能。
解决学术问题
该数据集解决了现有评估函数在研究问题提取任务上的不足,为开发更适用于该任务的评估函数提供了基础。此外,该数据集还揭示了现有评估函数与人类评估之间的关联性可能被高估的问题,为其他专业领域的自动摘要评估提供了启示。
衍生相关工作
该数据集衍生了一系列相关工作,包括开发更适用于研究问题提取任务的评估函数、改进研究问题提取模型、研究人类评估与研究问题提取模型之间的关系等。这些工作有助于推动研究问题提取技术的发展和应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作