five

Cora|文本分类数据集|自然语言处理数据集

收藏
OpenDataLab2025-04-05 更新2024-05-09 收录
文本分类
自然语言处理
下载链接:
https://opendatalab.org.cn/OpenDataLab/Cora
下载链接
链接失效反馈
资源简介:
Cora 数据集包含 2,708 份科学出版物,分为 7 个类别。引文网络由 5,429 个链接组成。每个出版物都由一个 0/1 二进制标签描述,该标签指示字典中相应单词的缺失/存在,该字典由 1,433 个唯一单词组成。
提供机构:
OpenDataLab
创建时间:
2022-03-17
AI搜集汇总
数据集介绍
main_image_url
构建方式
Cora数据集源自于对学术论文的分类任务,其构建过程涉及对机器学习领域的论文进行标注。具体而言,数据集收集了来自Cora数据库的论文摘要,并通过人工标注的方式将每篇论文分配到一个特定的研究领域类别中。这一过程确保了数据集的高质量与准确性,为后续的机器学习算法提供了可靠的基础。
特点
Cora数据集以其独特的图结构特征著称,每篇论文不仅包含文本信息,还通过引用关系与其他论文形成连接。这种结构化的数据形式使得Cora成为图神经网络(GNN)研究的理想选择。此外,数据集的类别分布均衡,涵盖了七个主要的机器学习子领域,为多分类任务提供了丰富的训练样本。
使用方法
Cora数据集主要用于图分类和节点分类任务。研究者可以通过加载数据集中的图结构和节点特征,训练图神经网络模型以预测论文的类别。此外,Cora还可以用于评估不同图嵌入技术和图算法的性能。使用时,建议先进行数据预处理,如文本向量化和图结构的标准化,以确保模型训练的有效性。
背景与挑战
背景概述
Cora数据集,由McCallum等人于2000年创建,是文本分类领域的重要基准数据集。该数据集由计算机科学领域的学术论文组成,每篇论文被标记为七个类别之一,如'人工智能'或'数据库'。Cora的核心研究问题在于探索如何利用图结构数据进行有效的文本分类,这一问题在信息检索和机器学习领域具有深远影响。通过提供一个结构化的文本数据集,Cora促进了图神经网络和半监督学习方法的发展,为相关研究提供了坚实的基础。
当前挑战
Cora数据集在解决文本分类问题时面临多重挑战。首先,数据集的稀疏性问题显著,许多论文仅与少数其他论文相关联,这增加了模型学习的难度。其次,类别不平衡问题也较为突出,某些类别如'人工智能'的论文数量远多于其他类别,导致分类器在训练时可能偏向于这些大类。此外,构建过程中,如何准确地从学术论文中提取特征并构建图结构,也是一个技术上的挑战。这些挑战共同推动了数据预处理和模型优化技术的发展。
发展历史
创建时间与更新
Cora数据集最初于2000年由McCallum等人创建,用于研究文本分类和信息检索。该数据集在2008年由Sen等人进行了更新,增加了更多的文档和类别,以适应不断发展的研究需求。
重要里程碑
Cora数据集的一个重要里程碑是其在图神经网络(GNN)领域的应用。2016年,Kipf和Welling在其论文中首次将Cora数据集用于图卷积网络(GCN)的实验,这一研究极大地推动了图神经网络的发展,并为后续的图数据处理研究提供了基准。此外,Cora数据集还被广泛应用于半监督学习和节点分类任务中,成为该领域的重要参考数据集。
当前发展情况
当前,Cora数据集已成为图神经网络和半监督学习领域的标准基准数据集之一。随着深度学习技术的不断进步,Cora数据集的应用范围也在不断扩展,涉及更多的复杂图结构和多模态数据处理。研究者们利用Cora数据集进行各种创新实验,推动了图数据分析和机器学习技术的融合发展。Cora数据集的持续更新和广泛应用,为相关领域的研究提供了坚实的基础和丰富的资源。
发展历程
  • Cora数据集首次发表,作为机器学习和数据挖掘领域的基准数据集,用于评估分类算法在图结构数据上的性能。
    2000年
  • Cora数据集首次应用于图神经网络(GNN)的研究中,标志着其在深度学习领域的应用开始。
    2008年
  • Cora数据集在图卷积网络(GCN)的研究中得到广泛应用,成为图神经网络模型性能评估的重要基准。
    2016年
  • Cora数据集被用于验证多种新型图神经网络架构的有效性,进一步巩固了其在图神经网络研究中的地位。
    2019年
常用场景
经典使用场景
在图神经网络领域,Cora数据集被广泛用于节点分类任务。该数据集包含2708篇机器学习领域的论文,每篇论文被标记为一个类别,并且通过引用关系形成一个图结构。研究者利用Cora数据集进行图卷积网络(GCN)的训练和评估,通过学习节点特征和图结构信息,实现对未标记节点的准确分类。这一经典场景不仅推动了图神经网络的发展,也为后续研究提供了基准数据集。
衍生相关工作
基于Cora数据集,研究者们开发了多种图神经网络模型和算法,推动了该领域的快速发展。例如,Kipf和Welling提出的图卷积网络(GCN)首次在Cora数据集上展示了其在节点分类任务中的优越性能。随后,许多研究工作如GraphSAGE、GAT等,均以Cora数据集为基准进行模型验证和性能比较。这些工作不仅丰富了图神经网络的理论体系,也为实际应用提供了多样化的解决方案。
数据集最近研究
最新研究方向
在图神经网络(GNN)领域,Cora数据集作为经典基准数据集,近年来研究重点转向了图表示学习与节点分类任务的结合。研究者们通过引入更复杂的图卷积网络(GCN)变体,如GraphSAGE和GAT,以提升节点特征提取的效率和准确性。此外,跨领域应用如社交网络分析和生物信息学中,Cora数据集也被广泛用于验证新算法的有效性。这些研究不仅推动了图神经网络理论的发展,也为实际应用提供了强有力的技术支持。
相关研究论文
  • 1
    Mining of Massive DatasetsStanford University · 2014年
  • 2
    Semi-Supervised Classification with Graph Convolutional NetworksUniversity of California, Los Angeles · 2017年
  • 3
    DeepWalk: Online Learning of Social RepresentationsUniversity of Pennsylvania · 2014年
  • 4
    Inductive Representation Learning on Large GraphsStanford University · 2017年
  • 5
    Node2Vec: Scalable Feature Learning for NetworksStanford University · 2016年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

lmarena-ai/arena-hard-auto-v0.1

--- license: apache-2.0 dataset_info: features: - name: question_id dtype: string - name: category dtype: string - name: cluster dtype: string - name: turns list: - name: content dtype: string splits: - name: train num_bytes: 251691 num_examples: 500 download_size: 154022 dataset_size: 251691 configs: - config_name: default data_files: - split: train path: data/train-* --- ## Arena-Hard-Auto **Arena-Hard-Auto-v0.1** ([See Paper](https://arxiv.org/abs/2406.11939)) is an automatic evaluation tool for instruction-tuned LLMs. It contains 500 challenging user queries sourced from Chatbot Arena. We prompt GPT-4-Turbo as judge to compare the models' responses against a baseline model (default: GPT-4-0314). Notably, Arena-Hard-Auto has the highest *correlation* and *separability* to Chatbot Arena among popular open-ended LLM benchmarks ([See Paper](https://arxiv.org/abs/2406.11939)). If you are curious to see how well your model might perform on Chatbot Arena, we recommend trying Arena-Hard-Auto. Please checkout our GitHub repo on how to evaluate models using Arena-Hard-Auto and more information about the benchmark. If you find this dataset useful, feel free to cite us! ``` @article{li2024crowdsourced, title={From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline}, author={Li, Tianle and Chiang, Wei-Lin and Frick, Evan and Dunlap, Lisa and Wu, Tianhao and Zhu, Banghua and Gonzalez, Joseph E and Stoica, Ion}, journal={arXiv preprint arXiv:2406.11939}, year={2024} } ```

hugging_face 收录

汶上县政府安排工作退役士兵选岗公示

该目录主要描述汶上县政府安排工作退役士兵选岗公示,包含主管单位、单位所在地、选岗人、接收安置单位、备注、安置计划、单位性质等信息项

山东公共数据开放网 收录

LIGO Open Science Center Data

LIGO Open Science Center Data 包含来自激光干涉引力波天文台(LIGO)的观测数据,主要用于研究引力波的探测和分析。数据集包括引力波事件的原始数据、处理后的数据以及相关的元数据,适用于天文学、物理学和数据科学领域的研究。

www.gw-openscience.org 收录

ReferCOCO数据集

ReferCOCO数据集包括refcoco、refcoco+和refcocog三个子集,用于视觉定位任务。数据集包含图像和对应的描述性文本,用于训练和测试模型识别图像中特定对象的能力。

github 收录

MME-RealWorld

MME-RealWorld是一个精心设计的基准,旨在解决现实世界应用中的实际问题。该数据集包含13,366张高分辨率图像,平均分辨率为2,000 × 1,500像素,涵盖29,429个由25名众包工作者和7名MLLM专家精心制作的注释,涉及43个任务。数据集的主要优势包括:1) 数据规模:由32名志愿者手动注释的29,429个QA对,是目前已知的最大全人工注释基准。2) 数据质量:高分辨率图像和人工完成的注释,确保了数据质量。3) 任务难度和实际应用价值:即使是最高级的模型,准确率也未超过60%,许多现实世界的任务比传统基准更难。4) 中文版本MME-RealWord-CN:针对中文场景收集的图像和注释,解决了英文版本翻译可能存在的问题。

huggingface 收录