five

OPOR-BENCH

收藏
arXiv2025-12-02 更新2025-12-03 收录
下载链接:
https://developer.x.com/en/docs/x-api
下载链接
链接失效反馈
官方服务:
资源简介:
OPOR-BENCH是由中国传媒大学等机构联合构建的事件中心化基准数据集,专为自动化在线舆情报告生成任务设计。该数据集涵盖463个危机事件(2012-2025年),每个事件包含多源文档(平均19.1篇新闻文章和400.8条社交媒体帖子)及结构化参考摘要,总令牌数平均每事件超过32K,数据来源于权威数据库(如EM-DAT)和公共平台(如Wikipedia、X/Twitter)。数据集通过混合标注流程构建,结合LLM自动化框架与人工专家标注,确保了时间线、事实属性和社交媒体作者分类的高质量。其应用旨在解决危机管理中多源信息整合的挑战,支持政府和企业快速生成结构化舆情报告,以提升应急响应效率。

OPOR-BENCH is an event-centric benchmark dataset jointly constructed by Communication University of China and other institutions, specifically designed for the task of automated online public opinion report generation. This dataset covers 463 crisis events spanning from 2012 to 2025, with each event containing multi-source documents (averaging 19.1 news articles and 400.8 social media posts) and structured reference summaries, and an average total of over 32,000 tokens per event. The data is sourced from authoritative databases such as EM-DAT and public platforms including Wikipedia and X/Twitter. The dataset is built through a hybrid annotation pipeline that combines an LLM-powered automated framework with manual expert annotations, ensuring high-quality annotations for timelines, factual attributes, and social media author classification. Its applications aim to address the challenge of multi-source information integration in crisis management, supporting governments and enterprises to rapidly generate structured public opinion reports and thereby improving emergency response efficiency.
提供机构:
中国传媒大学、哈尔滨工业大学、中国铁道科学研究院集团有限公司、圣克拉拉大学
创建时间:
2025-12-02
搜集汇总
数据集介绍
main_image_url
构建方式
在公共舆论分析领域,自动化报告生成的研究长期受限于缺乏规范任务定义与相应基准数据集。为填补这一空白,OPOR-BENCH 的构建遵循事件中心化原则,系统性地整合了多源异构信息。研究团队首先从 EM-DAT 国际灾害数据库和维基百科权威清单中收集了 463 起危机事件(2012-2025年),确保事件类型的多样性与地理分布的广泛性。针对每个事件,并行采集了来自维基百科引用的高质量新闻文章以及通过 X(Twitter)API 获取的事件前后社交媒体帖子,构建了包含海量文本的原始语料库。随后,通过三层标注流程将原始数据转化为结构化参考报告:基于协议引导的大语言模型框架自动化提取事件关键事实属性并对社交媒体作者进行分类,而更复杂的舆情生命周期时间线标注则由人类专家借助专用可视化工具完成,以此保障数据质量与标注一致性。
特点
OPOR-BENCH 作为首个面向在线舆情报告自动生成任务的基准数据集,其核心特点体现在多维度的系统设计上。数据集以事件为中心,覆盖了自然灾害与人为危机两大类共 463 个事件,确保了任务场景的丰富性与代表性。其数据构成具有显著的异构性,每个事件均关联了正式新闻与非正式社交媒体两类信息源,模拟了真实世界中舆情信息的复杂生态。数据集提供的参考报告采用了精心定义的五部分结构——事件标题、摘要、时间线、焦点与建议,为模型生成提供了清晰的结构化目标。此外,数据集在事件类型、地理分布和信息量上均保持了良好的平衡与多样性,例如不同类别事件在新闻与社交媒体覆盖模式上呈现显著差异,这为全面评估模型在不同信息结构下的综合能力奠定了基础。
使用方法
OPOR-BENCH 旨在系统评估大语言模型在自动化在线舆情报告生成任务上的性能。使用该数据集时,研究者将特定危机事件对应的新闻文章集与社交媒体帖子集作为模型输入,要求模型生成包含五个预设章节的结构化报告。为全面考察模型能力,支持两种主流生成策略:端到端生成要求模型单次推理产出完整报告,以测试其全局连贯性;模块化生成则将任务分解为五个子任务顺序执行,以评估其分步处理与信息整合能力。报告生成后,需使用配套的 OPOR-EVAL 评估框架进行多维度量化评分。该框架采用基于智能代理的架构,通过事实核查、意见挖掘和方案顾问三个专用工具,模拟人类专家从事实一致性、多源信息合成与实践推理三个核心能力维度,对生成报告的 15 个具体子维度进行五点李克特量表评分,从而实现对模型性能可解释、可追溯的系统性评估。
背景与挑战
背景概述
在线舆情报告作为整合新闻与社交媒体信息的关键工具,为政府与企业提供及时的危机管理支持。然而,传统依赖人工撰写与评估的方式效率低下,常导致响应窗口延误。随着大语言模型技术的成熟,自动化报告生成成为可能,但该领域长期缺乏系统的任务定义与基准数据集。为填补这一空白,研究团队于2025年提出了OPOR-BENCH数据集,由来自中国传媒大学、哈尔滨工业大学等机构的学者联合构建。该数据集聚焦于自动化在线舆情报告生成任务,涵盖了2012年至2025年间的463个危机事件,每个事件均包含多源文档与结构化参考摘要,旨在为复杂、多源的长文本生成研究提供坚实的数据基础。
当前挑战
OPOR-BENCH数据集致力于解决自动化在线舆情报告生成这一领域核心问题,其挑战主要体现在两个方面。首先,在任务层面,模型需从异构、海量的新闻与社交媒体数据中,精准提取关键信息,并合成符合特定章节结构的结构化长文本报告,这对模型的多文档摘要、时序推理与跨源信息融合能力提出了极高要求。其次,在数据集构建过程中,研究团队面临多重挑战:一是如何从权威来源系统收集并验证大规模、多样化的危机事件;二是设计高效的标注流程,以自动化方式提取事件关键属性并分类社交媒体作者,同时确保复杂的时间线标注由人工专家完成以保证质量;三是构建可靠的评估框架OPOR-EVAL,以模拟专家评判,克服传统指标对长文本结构化内容评估的不足。
常用场景
经典使用场景
在公共舆论分析与危机管理领域,OPOR-BENCH数据集为自动化在线舆情报告生成任务提供了首个事件中心的基准。该数据集的核心应用场景在于系统评估大型语言模型从异构多源信息中生成结构化报告的能力。具体而言,研究者利用其涵盖的463个危机事件、相关新闻文章与社交媒体帖子,要求模型整合正式新闻的权威视角与社交媒体的实时动态,生成包含事件标题、摘要、时间线、焦点分析与建议的完整报告。这一场景精准模拟了政府与企业面对突发事件时,亟需从海量、碎片化信息中快速提炼关键洞察的实际需求,为模型的多文档摘要、信息融合与结构化生成能力提供了标准化的测试平台。
衍生相关工作
围绕OPOR-BENCH数据集及其关联的OPOR-EVAL评估框架,已衍生出一系列探索模型能力边界与优化方法的相关工作。这些工作主要沿着两个方向展开:在生成策略方面,研究者对比了端到端生成与模块化生成两种范式的优劣,发现前者在整体连贯性上占优,而后者在细节分析与多视角整合上更具优势,这催生了对于混合生成策略的进一步探索。在评估方法方面,基于智能代理的OPOR-EVAL框架启发了更多针对长文本、结构化输出的自动化评估研究,特别是在解决传统n-gram指标失效、以及如何模拟人类专家在事实核查、观点挖掘与建议可行性等方面的复杂评判过程上,提供了可借鉴的架构与思路,推动了文本生成评估向更可靠、更高效的方向发展。
数据集最近研究
最新研究方向
在公共舆情分析领域,OPOR-BENCH数据集的推出标志着自动化舆情报告生成任务(OPOR-GEN)的系统化研究迈入新阶段。该数据集聚焦危机事件,整合新闻与社交媒体等多源异构信息,旨在评估大语言模型在生成结构化舆情报告方面的能力。前沿研究围绕多文档摘要的复杂扩展展开,重点探索模型在时序推理、信息融合及生成策略优化上的表现。热点议题包括基于智能体(Agent)的自动化评估框架OPOR-EVAL的开发,其通过模拟专家评判机制,显著提升了生成报告在事实一致性、观点挖掘与建议可行性等多维度的评估效率与信度。这一进展不仅为应急管理提供了高效工具,也为自然语言处理领域的多源长文本生成与评估任务设立了新的基准,推动相关技术向更精准、可解释的方向演进。
相关研究论文
  • 1
    OPOR-Bench: Evaluating Large Language Models on Online Public Opinion Report Generation中国传媒大学、哈尔滨工业大学、中国铁道科学研究院集团有限公司、圣克拉拉大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作