five

ICLR2023|大型语言模型数据集|学术评审数据集

收藏
arXiv2024-11-12 更新2024-11-13 收录
大型语言模型
学术评审
下载链接:
http://arxiv.org/abs/2411.07127v1
下载链接
链接失效反馈
资源简介:
ICLR2023数据集由密歇根大学和北京大学共同创建,用于评估大型语言模型(LLMs)在生成高质量学术论文评审方面的能力。该数据集包含最新的开放获取研究论文及其评审,旨在解决数据污染问题,确保评估的公正性。数据集的创建过程利用了GEM(Generative Estimator for Mutual Information)方法,通过生成模型估计候选响应与参考响应之间的互信息,从而评估响应的语义信息量。ICLR2023数据集主要应用于学术评审领域,旨在提高LLMs在生成高质量评审方面的表现。
提供机构:
密歇根大学, 北京大学
创建时间:
2024-11-12
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集ICLR2023通过引入生成互信息估计器(GEM)来构建,这是一种用于评估大型语言模型(LLMs)生成文本的评估指标。GEM通过估计候选响应与参考响应之间的互信息来工作,无需依赖黄金标准参考。数据集的构建利用了生成模型来估计互信息,从而在缺乏明确黄金标准的情况下,能够评估LLMs在生成信息性判断方面的表现。
特点
ICLR2023数据集的主要特点是其能够在没有黄金标准参考的情况下,评估LLMs生成文本的质量。GEM和其变体GEM-S不仅能够准确评估语义信息量,还具有对策略性操纵的抵抗能力,如重述或延长文本,这些操纵可能会人为地提高GPT-4o Examiner的评分。此外,该数据集通过使用每年新开放访问的研究论文和同行评审,避免了数据污染问题。
使用方法
使用ICLR2023数据集时,研究人员可以利用GEM和GEM-S来评估LLMs在生成高质量同行评审方面的能力。通过将LLMs生成的评审与人类生成的评审进行比较,可以计算出互信息,从而评估LLMs的输出质量。此外,数据集还可以用于验证新的评估指标,确保其在不同LLM和不同任务中的有效性和鲁棒性。
背景与挑战
背景概述
ICLR2023数据集由密歇根大学和北京大学的研究人员于2023年引入,旨在评估大型语言模型(LLMs)在没有黄金标准参考的情况下生成信息性判断的能力。该数据集的核心研究问题是如何在没有黄金标准参考的情况下,开发准确、抗操纵且自动化的文本响应评估指标。ICLR2023数据集通过引入GEM(生成互信息估计器)和GRE-bench(生成评审评估基准),扩展了LLMs在传统任务(如机器翻译和摘要)之外的评估场景,特别是在学术同行评审等主观任务中。该数据集的创建对LLMs的评估研究具有重要影响,特别是在处理缺乏明确黄金标准的开放性任务时。
当前挑战
ICLR2023数据集面临的挑战主要集中在两个方面。首先,解决领域问题的挑战,即在没有黄金标准参考的情况下评估LLMs生成文本的质量。这需要开发新的评估方法,如GEM和GRE-bench,以准确衡量生成文本的信息量和质量。其次,数据集构建过程中的挑战,包括如何避免数据污染(即训练数据包含评估任务的信息),以及如何确保评估指标对操纵策略的鲁棒性。此外,数据集还需要应对生成文本中可能存在的语义退化和表面信息偏差等问题。
常用场景
经典使用场景
ICLR2023数据集在评估大型语言模型(LLMs)的判断能力方面具有经典应用场景。该数据集特别适用于在没有黄金标准参考的情况下,评估LLMs在生成信息性判断方面的表现。例如,在学术同行评审中,LLMs需要生成高质量的评审报告,而这些报告的质量评估通常缺乏明确的黄金标准。通过使用GEM(Generative Estimator for Mutual Information)和GRE-bench(Generating Review Evaluation Benchmark),研究者可以在这些主观任务中有效评估LLMs的表现。
解决学术问题
ICLR2023数据集解决了在没有黄金标准参考的情况下,如何自动化评估文本响应质量的学术问题。传统的评估方法依赖于客观的黄金标准答案,而这类方法在处理主观任务时显得不足。该数据集通过引入GEM和GRE-bench,提供了一种基于互信息的生成估计方法,能够在没有黄金标准的情况下,准确评估LLMs生成的文本响应的质量。这不仅拓宽了LLMs评估的应用场景,还为学术研究提供了新的工具和方法。
衍生相关工作
ICLR2023数据集的引入和应用催生了一系列相关研究工作。例如,基于GEM和GRE-bench的评估方法已经被应用于多个LLMs的性能评估中,推动了LLMs在生成文本质量评估方面的研究进展。此外,该数据集还激发了对信息理论框架在自然语言生成(NLG)评估中应用的深入研究,特别是在处理主观任务和缺乏黄金标准的情况下。这些衍生工作不仅丰富了LLMs评估的理论基础,还为实际应用提供了更为精确和可靠的评估工具。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

COVID-19 Data Hub

COVID-19 Data Hub是一个全球性的COVID-19数据集,包含了来自多个国家和地区的疫情数据,涵盖了病例数、死亡数、康复数、测试数等信息。此外,数据集还包括了与疫情相关的经济、社会和政策数据。

covid19datahub.io 收录

Fruits-360

一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。

github 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录