five

gdelt-gkg-2025-v2|全球事件分析数据集|知识图谱数据集

收藏
huggingface2025-02-12 更新2025-02-13 收录
全球事件分析
知识图谱
下载链接:
https://huggingface.co/datasets/dwb2023/gdelt-gkg-2025-v2
下载链接
链接失效反馈
资源简介:
GDELT全球知识图谱2025数据集,涵盖2025年2月的内容,记录了全球事件互动、行为者关系和情境叙述,支持时间、空间和主题分析。数据集包含了日期、来源标识、文档标识、计数、主题、位置、人名、组织名、情感、时间参照、文档图像URL、引文和实体名称等特征。
创建时间:
2025-02-12
AI搜集汇总
数据集介绍
main_image_url
构建方式
本数据集GDelt-gkg-2025-v2,针对2025年2月全球事件互动、行为者关系及情境叙述进行专门构建。它从原始GDelt数据集中精选了部分字段,通过ETL管道进行数据转换,旨在为时态、空间和主题分析提供支持,从而形成了这一时期全球知识图谱的精细视角。
特点
该数据集特色在于其覆盖了全球范围内的知识图谱信息,不仅包含了核心的文档元数据,还涉及数值度量、分类、命名实体识别、情感分析、时间信息以及内容提取等维度。特别值得一提的是,它对原始数据集进行了增强,如提升了地理位置、人名、组织名的识别精确度,并对主题分类和情感分析进行了深化。
使用方法
用户可以直接利用此数据集进行全球事件的时态分析。然而,由于其历史和静态的特性,并不适合用于实时监测。同样,它也不应用于医疗诊断或预测性健康建模。使用时,用户需遵循CC-BY-4.0许可协议,并正确引用数据集来源。
背景与挑战
背景概述
GDELT Global Knowledge Graph (GKG)数据集是一个全球事件交互、行为者关系和情境叙述的集合,旨在支持时间、空间和主题分析。该数据集名为gdelt-gkg-2025-v2,由dwb2023团队于2025年 curated,专注于2025年2月的数据。其核心研究问题在于如何通过知识图谱的方式,详细记录和解析全球政治、经济和社会事件及其相互关系。该数据集的创建,为研究国际关系、地缘政治学以及全球事件动态提供了宝贵的资源,对相关领域产生了深远的影响。
当前挑战
该数据集面临的挑战主要在于:1) 如何准确捕捉和表示全球事件的复杂性,尤其是在地缘政治领域,事件的多元性和动态性使得数据集构建极具挑战性;2) 数据集构建过程中的技术挑战,包括选择合适的数据特征、确保数据质量以及开发有效的ETL(提取、转换、加载)管道。此外,由于数据集的静态特性,它不适用于实时监测,且在医疗诊断或预测健康模型方面的应用也超出了其设计范围。
常用场景
经典使用场景
在全球化事件交互、行为者关系和情境叙述的研究领域中,gdelt-gkg-2025-v2数据集因其包含全球知识图谱数据而成为一项宝贵的资源。该数据集的经典使用场景主要在于对全球事件进行时间序列分析,研究者能够通过该数据集深入挖掘特定时间段内的全球事件动态,为理解国际关系演变提供数据支撑。
衍生相关工作
基于gdelt-gkg-2025-v2数据集,已经衍生出多项相关工作,包括构建更复杂的知识图谱、进行跨语言的信息抽取、以及开发能够实时监测全球事件的系统等。这些相关工作进一步扩展了该数据集的应用范围,为全球事件研究提供了新的视角和方法。
数据集最近研究
最新研究方向
gdelt-gkg-2025-v2数据集汇聚了全球事件互动、行为者关系及情境叙述,旨在支持时态、空间与主题分析。近期研究集中于深入挖掘该数据集中的增强特征,如扩展的主题分类和分类法、增强的地点与人物名称提取,以及情感分析与数量测量提取,以期在全球地缘政治事件、社会政治与经济影响等领域取得新的洞察。该数据集为研究新兴大型语言模型能力的影响提供了宝贵资源,特别是在情境化实体识别、情感计算和主题建模方面的研究显示出其重要的学术与应用价值。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经 收录

Market-1501

1501市场的数据集是在清华大学的一家超市前收集的。总共使用了六个摄像头,其中包括5个高分辨率摄像头和一个低分辨率摄像头。不同摄像机之间存在视场重叠。总体而言,该数据集包含32,668带注释的1,501身份的边界框。在这个开放系统中,每个身份的图像最多由六个摄像机捕获。我们确保每个带注释的身份都存在于至少两个摄像机中,以便可以执行跨摄像机搜索。1501市场的数据集有三个特色属性: 首先,我们的数据集使用可变形零件模型 (DPM) 作为行人检测器。 其次,除了真正界框外,我们还提供了误报检测结果。 第三,每个标识在每个摄像机下可能具有多个图像。在跨摄像头搜索期间,每个身份都有多个查询和多个地面真相。

OpenDataLab 收录

Huatuo-26M

Huatuo-26M是由香港中文大学(深圳)创建的大型中文医疗问答数据集,包含2600万个问答对。该数据集通过收集在线医疗咨询网站、医疗百科和医疗知识库的数据构建而成,旨在纪念古代名医华佗。数据集内容涵盖广泛,包括常见疾病、慢性病及复杂疾病等,问答形式贴近实际医疗诊断场景。Huatuo-26M不仅用于医疗研究,还旨在辅助患者和临床医生,通过提供丰富的医疗知识,支持模型在零样本学习和其他医疗问答数据集上的表现,以及作为预训练语料库提升现有预训练语言模型的性能。

arXiv 收录

中医舌脉诊标注数据

采用满足国家医疗器械标准的设备采集舌体图像数据、脉象波形数据。由医生对数据进行标注和分析,获取舌体特征信息、脉型判断,进而生成规范化的中医舌脉数据与特征的结构化报告,涉及以下步骤和算法规则:1、数据预处理,由医生对原始采集到的舌图像、脉诊数据进行清洗,按照纳排标准去掉不符合标准的数据,例如图片不清晰、伸舌动作不标准、脉象数据不稳定等数据需要删除。2、基于神经网络模型的特征提取:利用多标签分类网络处理舌图数据与脉象数据,获取初步的舌图健康特征与脉型信息,例如:红舌、裂纹舌、点刺舌、滑脉、涩脉等信息。3、健康特征校验:由三名取得中医执业医师资格证的医生对数据进行校准,校准规则为三名医师至少有两名对分析特征认可后,数据才可纳入数据集。4、生成结构化的数据报告:按照json的文件格式,将数据内容、数据标签存储起来,其中舌图图像数据以jpg格式文件的形式存储。文件内不涉及任何人员信息。5、质量控制:对生成的结构化报告进行质量控制,确保信息的准确性和完整性。8、持续优化和扩充数据集:根据数据集的应用反馈,持续改进数据集的数据量,单例数据包含舌脉特征数量,舌脉特征分析的准确度等信息。

天津市数据知识产权登记平台 收录

Functional and structural differences in adults with dyslexia

# README This dataset was collected with the aim to investigate functional and structural differences in adults with dyslexia. The data was collected at the University Hospital of Ghent, Belgium on a 3T Siemens Prisma scanner from November 2021 - May 2022. Ethics approval was obtained from the medical ethical committee of Ghent University Hospital (approval number BC-09822). The dataset consists of - T1-weighted image - Diffusion weighted images: dwi series with A-P phase encoding (b-shells: 0,1200,3000) a b-zero weighted scan with P-A phase encoding for EPI distortion correction - Task related functional MRI images (all block designs): covert letter fluency task visual rhyme decision task lexical decision task fieldmap for EPI distortion correction ## Participants Thirty-five adults with a diagnosis of dyslexia and 35 individuals without any diagnosis of language or reading impairment were recruited for this study. Inclusion criteria were: - Dutch as a first language - age between 18 and 40 - right-handedness All participants had normal or corrected-to-normal vision and reported no history of brain injury or neurological disease. All participants in the dyslexia group received a diagnosis of dyslexia from a trained professional, either while they were at school or in the context of receiving disability services at university/college. ## Further materials The task scripts and stimuli for the fMRI data are available to download from OSF at https://osf.io/d8e9b/

OpenNeuro 收录