five

ICLR dataset|机器学习数据集|学术会议数据集

收藏
github2024-05-02 更新2024-05-31 收录
机器学习
学术会议
下载链接:
https://github.com/berenslab/iclr-dataset
下载链接
链接失效反馈
资源简介:
ICLR数据集是从OpenReview上抓取的ICLR提交内容,包含2017至2024年的24,445篇提交文章。每个样本对应一篇提交至ICLR会议的文章,包含年份、OpenReview ID、标题、摘要、作者、决策、分数、关键词和标签等特征。数据集基于作者提供的关键词进行标签分类,共有45个非重叠类别,其中53.4%的论文被标记。

The ICLR dataset is scraped from OpenReview, encompassing 24,445 submissions to the ICLR conference from 2017 to 2024. Each sample corresponds to a paper submitted to the ICLR conference, featuring attributes such as the year, OpenReview ID, title, abstract, authors, decision, score, keywords, and tags. The dataset is categorized based on keywords provided by the authors, comprising 45 non-overlapping categories, with 53.4% of the papers being tagged.
创建时间:
2024-02-09
原始信息汇总

数据集概述

数据集名称

ICLR数据集

数据集内容

  • 样本数量: 24,445篇提交文章
  • 样本特征: 年份、OpenReview ID、标题、摘要、作者、决策、分数、关键词、标签
  • 标签系统: 基于作者提供的关键词,分为45个非重叠类别,53.4%的论文被标记
  • 排除样本: 26篇摘要少于100字符的提交文章被排除

数据集描述

  • 数据来源: 2017至2024年ICLR会议的提交文章
  • 标签方法: 使用作者提供的关键词进行分类,合并相关关键词,忽略过于宽泛的关键词,优先分配至罕见类别

数据集统计

  • 平均评审次数: 3.7次,93%的文章有3或4次评审
  • 评审分数相关性: 所有评审对之间的分数相关系数为0.40

数据集使用

  • 用途: 作为嵌入质量的基准测试数据集
  • 性能比较: 在kNN分类准确性上,TF-IDF表现优于大多数专用句子转换器模型,顶级语言模型略优于TF-IDF

模型性能

模型 高维准确率 二维准确率
TF-IDF 59.2% 52.0%
SVD 58.9% 55.9%
SVD, $L^2$ 60.7% 56.7%
SimCSE 45.1% 36.3%
DeCLUTR-sci 52.7% 47.1%
SciNCL 58.8% 54.9%
SPECTER2 58.8% 54.1%
ST5 57.0% 52.6%
SBERT 61.6% 56.8%
Cohere v3 61.1% 56.4%
OpenAI v3 62.3% 57.1%

数据集更新与维护

  • 更新频率: 每年更新
  • 最新更新: 2024年4月,添加了ICLR 2024的去匿名化提交文章
AI搜集汇总
数据集介绍
main_image_url
构建方式
ICLR数据集是通过对OpenReview平台上2017年至2024年期间提交的所有ICLR论文进行全面抓取构建而成。该数据集包含了24,445篇论文,每篇论文样本包含多个特征,如年份、OpenReview ID、标题、摘要、作者、决策、评分、关键词和标签。为了生成标签,研究者依据作者提供的关键词,将论文分配到45个不重叠的类别中,并优先为稀有类别分配标签,最终有53.4%的论文被成功标记。此外,数据集中排除了26篇摘要字数少于100字符的占位符论文。
特点
ICLR数据集的显著特点在于其广泛的覆盖范围和详细的论文信息。该数据集不仅包含了论文的基本信息,如标题、摘要和作者,还涵盖了评审决策、评分和关键词等关键特征。通过关键词分类,数据集实现了对论文主题的精细划分,提供了45个非重叠类别,便于进行主题分析和分类研究。此外,数据集的更新频率较高,每年都会进行更新,确保其时效性和完整性。
使用方法
ICLR数据集可作为评估嵌入质量的基准数据集,特别适用于自然语言处理领域的研究。用户可以通过加载数据集并使用TF-IDF等方法生成嵌入,进而利用kNN分类器进行模型性能评估。数据集的评估代码已公开,用户可以方便地调用相关函数进行模型验证。此外,数据集的标签化处理使其非常适合用于监督学习和半监督学习任务,尤其是在论文分类和主题建模方面具有广泛的应用潜力。
背景与挑战
背景概述
ICLR数据集是由OpenReview平台上的ICLR会议投稿内容全面抓取而成,涵盖了2017年至2024年间的24,445篇投稿。该数据集由Rita González-Márquez和Dmitry Kobak主导创建,并在2024年ICLR的DMLR研讨会上进行了详细描述。其核心研究问题在于如何通过自然语言处理技术,从大规模的学术论文中提取有价值的表示形式,进而推动机器学习领域的研究进展。ICLR数据集的发布不仅为学术界提供了一个全新的基准,还为自然语言处理和机器学习模型的评估提供了丰富的资源,具有广泛的影响力。
当前挑战
ICLR数据集在构建和应用过程中面临多项挑战。首先,数据集的标注依赖于作者提供的关键词,并通过复杂的分类规则将其映射到45个非重叠类别,这一过程涉及大量的人工干预和潜在的主观性。其次,尽管该数据集为自然语言处理领域提供了一个新的基准,但其评估结果显示,现有的语言模型在kNN分类准确性上仅略优于简单的词袋模型,这为NLP社区提出了新的挑战,即如何在无监督的情况下训练出能够显著超越传统方法的语言模型。此外,数据集的维护和更新也面临挑战,每年需对新投稿进行处理和标注,确保数据集的时效性和准确性。
常用场景
经典使用场景
ICLR数据集的经典使用场景主要集中在自然语言处理(NLP)领域,尤其是在句子嵌入和文本分类任务中。该数据集被广泛用于评估不同语言模型的性能,特别是通过k近邻(kNN)分类算法来衡量句子嵌入的质量。由于ICLR数据集包含了从2017年到2024年的24,445篇ICLR会议提交论文的摘要、标题、作者信息等,它为研究人员提供了一个丰富的资源来测试和比较各种文本表示方法的有效性。
实际应用
在实际应用中,ICLR数据集被广泛用于开发和验证新的文本表示技术,这些技术可以应用于各种实际场景,如学术论文推荐系统、研究趋势分析、以及自动化的学术评审系统。通过分析ICLR数据集中的论文摘要和关键词,研究人员可以构建模型来预测论文的接受率、识别研究热点,甚至为研究人员提供个性化的学术资源推荐。此外,该数据集还可以用于训练和评估用于自动生成论文摘要或关键词的模型。
衍生相关工作
ICLR数据集的发布催生了一系列相关的研究工作,特别是在句子嵌入和文本分类领域。许多研究者利用该数据集进行实验,提出了新的句子嵌入方法,如SimCSE和DeCLUTR-sci,这些方法在ICLR数据集上的表现得到了验证。此外,该数据集还激发了对现有语言模型性能的深入研究,推动了自监督学习和对比学习等技术的发展。通过不断更新和扩展,ICLR数据集为NLP领域的持续创新提供了坚实的基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

COVID-19 Data Hub

COVID-19 Data Hub是一个全球性的COVID-19数据集,包含了来自多个国家和地区的疫情数据,涵盖了病例数、死亡数、康复数、测试数等信息。此外,数据集还包括了与疫情相关的经济、社会和政策数据。

covid19datahub.io 收录

VisDrone2019

适用于小目标航拍图像检测的数据集,已提前下载并在datasets文件夹下划分了训练集、测试集和验证集。

github 收录

CrowdHuman

CrowdHuman是一个用于评估人群场景中检测器性能的基准数据集。该数据集规模大、注释丰富且具有高多样性,包含训练、验证和测试集,共计47万个标注的人体实例,平均每张图像有23个人,包含各种遮挡情况。每个人体实例都标注有头部边界框、可见区域边界框和全身边界框。

github 收录