five

WORLDREP|国际事件预测数据集|自然语言处理数据集

收藏
arXiv2024-11-21 更新2024-11-23 收录
国际事件预测
自然语言处理
下载链接:
https://github.com/eogns282/WORLDREP
下载链接
链接失效反馈
资源简介:
WORLDREP是由韩国科学技术院人工智能研究所创建的一个用于预测未来国际事件的高质量数据集。该数据集包含44,706篇新闻文章,涵盖了2015年2月18日至2024年5月29日期间的国际关系和事件。数据集通过大型语言模型(LLMs)进行高级推理和标注,确保了标签的准确性和可靠性。创建过程中,数据集通过多主体提取和关系评分标注两个主要阶段,结合自校正机制,提高了数据集的质量。WORLDREP主要应用于文本基础的国际事件预测,旨在解决现有数据集在多边关系捕捉和标签准确性方面的不足。
提供机构:
韩国科学技术院人工智能研究所
创建时间:
2024-11-21
AI搜集汇总
数据集介绍
main_image_url
构建方式
WORLDREP数据集的构建方式体现了对现有数据集局限性的深刻认识与创新性解决方案。该数据集通过利用大型语言模型(LLMs)的高级推理能力,设计了一个结构化的标注流程,以确保高质量的标注结果。具体而言,数据集的构建分为两个主要阶段:多主体提取和关系评分标注。在多主体提取阶段,通过自校正机制确保准确识别新闻文章中涉及的所有相关国家。在关系评分标注阶段,采用了一种细致的评分系统,以捕捉国际关系的复杂性,并允许对无法明确界定的关系进行‘未知’标注。这些步骤通过领域专家的严格验证,确保了标注的可靠性和准确性。
特点
WORLDREP数据集的显著特点在于其对多边关系的全面捕捉和高精度的标注质量。与现有数据集相比,WORLDREP不仅能够识别涉及多个国家的复杂互动,还通过先进的提示模型生成了高质量的评分标签。此外,数据集引入了‘未知’类别,以处理那些信息不足或关系不明确的情况,从而提供了更为全面和细致的国际关系描述。这些特点使得WORLDREP成为预测未来国际事件的理想数据集,特别是在全球政策、战略决策和地缘政治分析等领域。
使用方法
WORLDREP数据集的使用方法多样且灵活,适用于多种基于文本的国际事件预测任务。研究者和分析师可以通过访问数据集的公开版本,利用其丰富的标注信息进行模型训练和验证。具体使用时,用户可以提取新闻文章中的国家对及其关系评分,用于构建预测模型。此外,数据集还提供了完整的自动化源代码,支持用户进行数据收集、标注和基准测试,从而促进了相关研究的可持续发展。通过这些方法,WORLDREP数据集为文本基础的国际关系预测研究提供了坚实的基础。
背景与挑战
背景概述
WORLDREP数据集由KAIST AI、KRAFTON和首尔国立大学的主要研究人员于2024年创建,旨在解决从文本信息(如新闻文章)预测未来国际事件的挑战。该数据集的核心研究问题是如何利用大型语言模型(LLMs)的高级推理能力,生成高质量的标签,以准确预测国际关系和事件。WORLDREP的推出填补了现有数据集在质量上的不足,为全球政策、战略决策和地缘政治研究提供了有力支持。其对相关领域的影响力在于,它不仅提供了丰富的多边关系数据,还通过领域专家的严格验证,确保了标签的可靠性和准确性。
当前挑战
WORLDREP数据集在构建过程中面临多项挑战。首先,解决领域问题如国际事件预测的挑战在于,国际关系的动态性和复杂性使得准确预测变得极为困难。其次,构建过程中遇到的挑战包括如何准确捕捉涉及多个国家的复杂互动,以及如何通过规则基础方法和基本机器学习技术提高标签的准确性。此外,现有的数据集如GDELT在多边关系捕捉和标签精确度上存在显著局限,WORLDREP通过引入LLMs和自校正机制,旨在克服这些限制,提供更为全面和准确的国际关系数据。
常用场景
经典使用场景
WORLDREP数据集的经典使用场景在于通过分析新闻文章中的文本信息,预测未来国际事件的发展趋势。该数据集通过高级语言模型(LLMs)的推理能力,提取并标注了多边关系和事件标签,为全球政策制定、战略决策和地缘政治研究提供了可靠的数据支持。
衍生相关工作
WORLDREP数据集的发布催生了一系列相关研究工作,特别是在文本驱动的国际事件预测和多边关系建模领域。许多研究者利用该数据集进行模型训练和验证,推动了预测模型的改进和创新,同时也促进了国际关系和政治科学领域的跨学科研究。
数据集最近研究
最新研究方向
在预测未来国际事件的领域中,WORLDREP数据集的最新研究方向主要集中在利用大型语言模型(LLMs)进行文本驱动的事件建模。该数据集通过高级提示建模和领域专家的严格验证,生成了高质量的评分标签,显著提升了国际关系和事件预测的准确性。研究者们正在探索如何更有效地捕捉多边关系,并通过改进标签的精确度来反映国际关系的复杂性。此外,WORLDREP的公开发布及其自动化源代码的共享,旨在推动基于文本的事件预测研究,特别是在全球政策、战略决策和地缘政治分析中的应用。
相关研究论文
  • 1
    Forecasting Future International Events: A Reliable Dataset for Text-Based Event Modeling韩国科学技术院人工智能研究所 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

rag-datasets/rag-mini-bioasq

该数据集主要用于问答和句子相似性任务,涉及生物医学领域。数据集包含两个配置:text-corpus和question-answer-passages,分别对应不同的数据文件路径。数据集来源于BioASQ任务11b的训练数据集,并通过`generate.py`脚本生成了子集。

hugging_face 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

MUStARD++

MUStARD++是一个多模态讽刺检测数据集,由萨里大学创建,旨在通过语言、语音和视觉线索全面捕捉讽刺现象。数据集包含1202个视频样本,来源于多个流行电视节目,通过手动标注确保高质量的讽刺标签。创建过程中,研究者们通过多轮标注和验证确保数据的准确性和多样性。该数据集主要应用于自动讽刺检测,帮助机器理解并识别讽刺语境,解决讽刺识别中的多模态挑战。

arXiv 收录

长江干流实时水位观测数据集(2024年)

该数据集为长江干流主要水文站实时水位观测数据集,包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。 该数据集包含3个excel表格文件,长江干流站点.xls,逐日水位.xlsx,逐小时水位.xlsx。

国家地球系统科学数据中心 收录