five

temporal_cookbook_db

收藏
Hugging Face2025-06-20 更新2025-06-21 收录
下载链接:
https://huggingface.co/datasets/TomoroAI/temporal_cookbook_db
下载链接
链接失效反馈
官方服务:
资源简介:
Temporal Cookbook DB 是一个结构化的多表数据集,设计用于事件提取、时间推理和事实表示。该数据集最初构建为 SQLite 数据库,并转换为 CSV 文件以便在 Hugging Face Hub 上托管。数据集来源于 earnings_call 数据集的子集,专注于 AMD 和英伟达这两家公司。数据集分为不同的配置,每个配置对应于原始 SQLite 数据库中的一个表,包括转录本、语块、事件、实体、三元组和事件实体。可以单独加载 CSV 表或重建完整的 SQLite 数据库来使用数据集。
创建时间:
2025-06-20
搜集汇总
数据集介绍
main_image_url
构建方式
在金融文本分析领域,Temporal Cookbook DB数据集通过结构化转换展现了其独特的构建逻辑。该数据集源自jlh-ibm/earnings_call子集的深度加工,聚焦AMD和Nvidia两家公司的财报电话会议文本。原始SQLite数据库被智能解构为五个关系型CSV表格,包括原始文本转录、分块文本、带时间戳的事件、命名实体以及主谓宾三元组,这种模块化设计既保留了数据间的关联性,又提供了灵活的访问方式。
特点
作为多表关系型数据集的典范,该数据集最显著的特征在于其时空双重维度标注。事件表内嵌精确的时间元数据,与实体表构成网状知识图谱,而经过专业分块的文本段落则维持了原始语境完整性。特别值得注意的是三元组表采用SPO结构,将复杂的金融事件转化为机器可理解的语义单元,为时序推理任务提供了丰富的特征空间。
使用方法
针对不同研究需求,该数据集支持梯度化使用方案。通过Hugging Face的datasets库可直接加载独立表格,如仅需事件数据时可选择events配置项。对于需要完整关系型分析的场景,提供的Python脚本能自动化重建SQLite数据库,其中to_sql方法智能处理各表间的外键关联。这种即插即用的设计显著降低了金融NLP领域的入门门槛。
背景与挑战
背景概述
Temporal Cookbook DB是由TomoroAI团队开发的面向事件抽取与时间推理的多表关系型数据集,其构建基于jlh-ibm/earnings_call数据集中AMD和Nvidia公司的财报电话会议文本。该数据集通过transcripts(原始文本)、chunks(文本分块)、events(带时间元数据的事件)、entities(命名实体)和triplets(主谓宾三元组)五类结构化表格,为时序知识图谱构建和复杂事件分析提供了标准化数据框架。其创新性在于将非结构化语音转录文本转化为可计算的时序关系网络,显著提升了金融领域事件时序建模的研究效率。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,财报会议文本包含大量模糊时间表达(如"下一季度")和隐含事件关联,要求模型同时解决时间标准化与事件因果推理问题;在构建过程中,原始语音转录文本存在口语化表达、指代消解困难等问题,研究团队需设计分块策略保证事件边界的准确性,并采用人工校验确保实体链接与SPO三元组抽取的可靠性。多表关系的严格一致性维护也增加了数据清洗的复杂度。
常用场景
经典使用场景
在自然语言处理领域,Temporal Cookbook DB数据集为事件抽取和时序推理任务提供了丰富的结构化数据支持。该数据集通过多表配置,包括原始文本、事件、实体及三元组等,为研究者构建了从文本到结构化知识的完整链路。其经典应用场景涵盖金融领域的财报电话会议分析,通过解析AMD和Nvidia等科技公司的收益电话记录,支持对商业事件及其时序关系的深度挖掘。
衍生相关工作
基于该数据集衍生的经典工作包括时序知识图谱补全算法TemporalKG、事件因果推理框架EventChain等。研究团队利用其多表关联特性,开发了联合事件抽取与时序关系预测的端到端模型TempRel。在金融科技领域,IBM研究院基于此数据集构建了上市公司风险事件预警系统,相关成果发表于ACL、EMNLP等顶级会议。
数据集最近研究
最新研究方向
在自然语言处理领域,Temporal Cookbook DB数据集因其独特的多表结构和丰富的时间关系标注,正成为事件抽取与时间推理研究的热点资源。该数据集通过对AMD和Nvidia公司财报电话会议记录的深度处理,构建了包含原始文本、事件元数据、实体及三元组的多维关系网络,为时序知识图谱构建提供了高质量语料。近期研究聚焦于如何利用其结构化事件链数据改进时序关系预测模型,特别是在金融舆情分析和企业事件演化建模方向展现出显著价值。随着时序推理在智能投研、风险预警等场景的应用升温,该数据集通过提供标准化的时间锚点与事件关联标注,正推动着时序自然语言理解技术向细粒度、可解释性方向发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作