five

Commodity News Corpus

收藏
github2022-03-24 更新2024-05-31 收录
下载链接:
https://github.com/meisin/Commodity-News-Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于事件提取的商品新闻语料库,包含了从多个知名新闻机构获取的商品新闻文章,并进行了详细的事件类型标注。

This is a commodity news corpus designed for event extraction, comprising articles sourced from multiple renowned news agencies. Each article has been meticulously annotated with detailed event type labels.
创建时间:
2021-05-23
原始信息汇总

数据集概述

1. 数据集名称

  • Commodity News Corpus

2. 数据集来源

  • 新闻文章来自以下知名新闻机构:
    • https://www.investing.com/commodities/crude-oil-news
    • https://www.reuters.com/news/economy
    • https://www.cnbc.com
    • https://www.hellenicshippingnews.com/
    • https://oilprice.com/Latest-Energy-News/
    • https://www.marketwatch.com
    • https://www.marketpulse.com
    • https://www.fxempire.com/news/

3. 数据处理

  • 提供代码将标注数据(.ann 文件)从standoff格式转换为CONLL格式。

4. 事件类型

  • 数据集包含19种事件类型,包括:
    • Geo-political News
    • Macro-Economic News
    • Commodity Supply
    • Commodity Demand
    • Commodity Price Movement
    • Change in Forecasted value

5. 引用信息

  • 使用此数据集需引用以下出版物:

    @misc{lee2021annotated, title={An Annotated Commodity News Corpus for Event Extraction}, author={Meisin Lee and Lay-Ki Soon and Eu-Gene Siew and Ly Fie Sugianto}, year={2021}, eprint={2105.08214}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总
数据集介绍
main_image_url
构建方式
Commodity News Corpus数据集的构建依托于多个知名新闻机构的商品新闻文章,包括Investing.com、Reuters、CNBC等。数据标注采用了Brat Rapid Annotation Tool,确保了标注的准确性和一致性。由于版权问题,数据集仅提供了原始新闻文章的链接,而非实际新闻文本,但提供了与标注文件对应的URL链接。此外,数据集还包含了经过数据处理的代码,用于将标注数据从standoff格式转换为CONLL格式。
特点
该数据集涵盖了19种事件类型,包括地缘政治新闻、宏观经济新闻、商品供需变化、商品价格变动等,每种事件类型下又细分为多个子类别。这些事件类型和子类别通过丰富的例句进行了详细说明,使得数据集在事件抽取任务中具有高度的实用性和参考价值。数据集还提供了增强数据,进一步丰富了数据的多样性和覆盖范围。
使用方法
Commodity News Corpus数据集主要用于学术研究,特别是在事件抽取领域。用户可以通过提供的URL链接访问原始新闻文章,并结合标注文件进行事件抽取任务。数据集还提供了数据处理的代码,方便用户将标注数据转换为CONLL格式,以便于后续的模型训练和评估。使用该数据集时,需引用相关文献以符合学术规范。
背景与挑战
背景概述
Commodity News Corpus数据集由Meisin Lee等人于2021年提出,旨在为商品新闻领域的事件抽取任务提供高质量的标注数据。该数据集涵盖了来自多个知名新闻机构的商品新闻文章,主要聚焦于原油市场相关的新闻事件。通过使用Brat Rapid Annotation Tool进行标注,数据集包含了19种事件类型,涵盖了地缘政治新闻、宏观经济新闻、商品供需变化以及价格波动等多个维度。该数据集的发布为自然语言处理领域的研究者提供了一个重要的资源,特别是在事件抽取和文本理解任务中,推动了相关领域的研究进展。
当前挑战
Commodity News Corpus数据集在构建过程中面临了多重挑战。首先,商品新闻领域的文本通常包含复杂的语言结构和专业术语,如何准确标注事件类型和实体关系成为一大难题。其次,由于新闻数据的版权限制,数据集仅提供了新闻文章的链接而非原始文本,这在一定程度上限制了数据的可用性和可扩展性。此外,数据集的标注工作依赖于人工标注,尽管使用了Brat工具进行辅助,但标注的一致性和准确性仍需进一步提升。最后,如何将标注数据从standoff格式转换为CONLL格式,以便于模型训练和评估,也是数据处理过程中需要克服的技术挑战。
常用场景
经典使用场景
Commodity News Corpus数据集在自然语言处理领域,尤其是事件抽取任务中展现了其独特的价值。该数据集通过标注商品新闻中的关键事件,如地缘政治新闻、宏观经济新闻、商品供需变化等,为研究者提供了一个丰富的语料库。这些标注不仅涵盖了事件的类型,还包括了事件的具体描述和上下文信息,使得该数据集成为训练和评估事件抽取模型的理想选择。
实际应用
在实际应用中,Commodity News Corpus数据集被广泛用于商品市场的预测和分析。金融机构和商品交易公司利用该数据集中的事件信息,结合机器学习模型,预测商品价格的走势。此外,该数据集还被用于构建智能新闻推荐系统,帮助用户快速获取与商品市场相关的关键新闻。
衍生相关工作
基于Commodity News Corpus数据集,研究者们已经开展了多项经典工作。例如,有研究利用该数据集开发了基于深度学习的事件抽取模型,显著提升了事件识别的准确率。此外,该数据集还启发了多篇关于商品市场事件影响分析的论文,推动了商品市场研究领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作