CrudeOilNews Corpus
收藏github2022-04-07 更新2024-05-31 收录
下载链接:
https://github.com/meisin/CrudeOilNews-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
CrudeOilNews Corpus是一个注释过的原油新闻数据集,适用于事件抽取任务。数据集包含来自多个知名新闻机构的原油新闻文章,但由于版权问题,仅提供原始新闻文章的链接。数据集详细记录了19种事件类型,包括地缘政治新闻、宏观经济新闻和商品供应等。
The CrudeOilNews Corpus is an annotated dataset of crude oil news articles, suitable for event extraction tasks. The dataset comprises articles from several renowned news agencies, though due to copyright restrictions, only links to the original news articles are provided. It meticulously documents 19 types of events, including geopolitical news, macroeconomic news, and commodity supply updates.
创建时间:
2022-01-10
原始信息汇总
数据集概述
数据集名称
Commodity News Corpus
数据集来源
- 数据集来源于多个知名新闻机构,包括但不限于:
- https://www.investing.com/commodities/crude-oil-news
- https://www.reuters.com/news/economy
- https://www.cnbc.com
- https://www.hellenicshippingnews.com/
- https://oilprice.com/Latest-Energy-News/
- https://www.marketwatch.com
- https://www.marketpulse.com
- https://www.fxempire.com/news/
数据处理
- 提供代码用于将标注数据(.ann 文件)从standoff格式转换为CONLL格式。
事件类型
数据集包含19种事件类型,涵盖以下类别:
- Geo-political News
- Macro-Economic News
- Commodity Supply
- Commodity Demand
- Commodity Price Movement
- Change in Forecasted value
引用信息
-
使用此数据集时,请引用以下出版物:
@misc{lee2021annotated, title={An Annotated Commodity News Corpus for Event Extraction}, author={Meisin Lee and Lay-Ki Soon and Eu-Gene Siew and Ly Fie Sugianto}, year={2021}, eprint={2105.08214}, archivePrefix={arXiv}, primaryClass={cs.CL} }
搜集汇总
数据集介绍

构建方式
CrudeOilNews Corpus的构建过程采用了Brat Rapid Annotation Tool进行标注,确保了数据的高质量和一致性。数据来源包括多个知名新闻机构,如Investing.com、Reuters、CNBC等,涵盖了广泛的原油相关新闻内容。由于版权问题,数据集仅提供了原始新闻文章的链接,而非实际文本内容。此外,数据集还提供了从标注数据(*.ann文件)转换为CONLL格式的数据处理代码,便于后续的研究和分析。
特点
CrudeOilNews Corpus的特点在于其丰富的标注信息,涵盖了19种事件类型,包括地缘政治新闻、宏观经济新闻、商品供需变化、价格波动以及预测值的变化等。这些事件类型通过详细的示例句子进行说明,使得数据集在事件抽取任务中具有高度的实用性和研究价值。数据集的多样性和广泛性为研究者提供了深入分析原油市场动态的宝贵资源。
使用方法
使用CrudeOilNews Corpus时,研究者可以通过提供的URL链接访问原始新闻文章,并结合标注文件进行事件抽取任务。数据集还提供了从标注数据转换为CONLL格式的代码,便于直接用于机器学习模型的训练和评估。此外,数据集的使用仅限于学术研究目的,使用时需引用相关文献以尊重作者的知识产权。
背景与挑战
背景概述
CrudeOilNews Corpus 是一个专门为原油新闻事件提取而构建的标注数据集,由 Meisin Lee 等研究人员于 2021 年发布。该数据集旨在支持自然语言处理领域中的事件提取任务,特别是针对原油市场的新闻文本分析。数据集涵盖了来自多家知名新闻机构的原油相关新闻文章,并通过 Brat Rapid Annotation Tool 进行了精细的标注。标注内容包括地缘政治新闻、宏观经济新闻、商品供需变化、价格波动以及预测值变化等 19 种事件类型。该数据集的发布为原油市场新闻的自动化分析和事件驱动的研究提供了重要的数据支持,推动了金融文本挖掘和事件提取技术的发展。
当前挑战
CrudeOilNews Corpus 在构建和应用过程中面临多重挑战。首先,原油市场的新闻文本具有高度的复杂性和多样性,涉及地缘政治、经济指标、供需关系等多维度信息,如何准确标注这些事件类型并确保标注一致性是一个关键问题。其次,由于新闻文本的版权限制,数据集仅提供了新闻文章的链接而非完整文本,这为数据的直接使用和扩展带来了不便。此外,事件提取任务本身对模型的语义理解和上下文推理能力提出了较高要求,尤其是在处理长文本和多事件重叠的情况下,模型的性能往往难以满足实际需求。这些挑战不仅体现在数据集的构建过程中,也对后续的研究和应用提出了更高的技术门槛。
常用场景
经典使用场景
CrudeOilNews Corpus 数据集在自然语言处理领域,尤其是事件抽取任务中展现了其独特的价值。该数据集通过标注原油新闻中的关键事件,如地缘政治紧张、经济数据变化、供需波动等,为研究者提供了一个丰富的语料库,用于训练和测试事件抽取模型。这些模型能够自动识别和分类新闻中的关键事件,进而支持更复杂的分析任务,如市场趋势预测和风险评估。
衍生相关工作
CrudeOilNews Corpus 数据集自发布以来,已经催生了一系列相关的研究工作。例如,基于该数据集的事件抽取模型在多个国际会议上得到了展示和讨论。此外,该数据集还被用于开发更高级的自然语言处理技术,如情感分析和因果关系推理。这些衍生工作不仅扩展了数据集的应用范围,也为相关领域的研究提供了新的思路和方法。
数据集最近研究
最新研究方向
在能源市场分析领域,CrudeOilNews Corpus数据集的最新研究方向聚焦于利用自然语言处理技术从新闻文本中提取关键事件信息,以预测原油价格波动和市场趋势。该数据集通过标注19种事件类型,涵盖了地缘政治、宏观经济、供需变化及价格波动等多个维度,为研究者提供了丰富的语义信息。当前研究热点包括基于深度学习的多事件联合抽取模型、事件时序关系分析以及跨领域知识融合,这些研究不仅提升了事件抽取的精度,还为原油市场的实时监测和决策支持提供了有力工具。该数据集的应用对理解全球能源市场的动态变化具有重要意义,尤其在应对突发事件和制定政策时展现出其独特价值。
以上内容由遇见数据集搜集并总结生成



