five

Gold News Dataset

收藏
arXiv2020-09-09 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2009.04202v1
下载链接
链接失效反馈
官方服务:
资源简介:
Gold News Dataset是由印度艾哈迈达巴德管理学院生产与定量方法系创建的一个包含11,412条关于黄金商品的人工标注新闻标题数据集,覆盖2000至2019年。该数据集通过爬取多个金融新闻网站构建,包括Reuters、The Hindu等。数据集的创建过程涉及两个关键任务:确定新闻标题的分类类别和手动标注流程。该数据集主要用于分析新闻对黄金价格的影响,旨在为投资者和政策制定者提供一个处理和分析大量黄金相关新闻的工具,帮助理解新闻对黄金价格的潜在影响。

The Gold News Dataset is a manually annotated dataset containing 11,412 gold commodity-related news headlines, covering the period from 2000 to 2019. It was developed by the Department of Production and Quantitative Methods at the Ahmedabad Management Institute in India. The dataset was constructed via web crawling across multiple financial news websites, including Reuters and The Hindu, among others. Two key tasks were involved in its development: defining the classification categories for news headlines and executing the manual annotation workflow. This dataset is primarily utilized for analyzing the impact of news on gold prices, with the goal of providing investors and policymakers with a tool for processing and analyzing large volumes of gold-related news, thus aiding in the comprehension of the potential influence of news on gold prices.
提供机构:
印度艾哈迈达巴德管理学院生产与定量方法系
创建时间:
2020-09-09
搜集汇总
数据集介绍
main_image_url
构建方式
在金融文本分析领域,新闻标题对商品市场的影响日益受到关注。Gold News Dataset的构建始于对2000年至2019年间全球金融新闻的广泛采集,涵盖路透社、彭博社等权威新闻源及Kitco等专业聚合平台。通过人工标注流程,三位领域专家依据严格指南,将11,412条黄金相关新闻标题独立分类为九个维度,包括价格趋势、时间指向及资产比较等类别。标注过程中采用共识机制解决分歧,确保数据的一致性与可靠性,最终形成高质量标注数据集,为后续机器学习模型训练奠定坚实基础。
特点
该数据集的核心特点在于其多维度的标注体系,突破了传统情感分析的局限。每条新闻标题不仅区分价格信息与一般信息,还细致标注价格方向(上涨、稳定、下跌)、时间维度(过去或未来)以及资产比较等类别。这种结构化设计使得数据集能够捕捉新闻中隐含的复杂语义信息,如市场预期与历史动态。数据规模跨越二十年,覆盖全球多个地理区域,具有时序连续性与空间代表性。标注者间一致性系数均高于0.85,体现了数据的高信度与稳定性,为商品市场新闻分析提供了前所未有的细粒度资源。
使用方法
该数据集适用于自然语言处理与金融量化研究的交叉领域。研究者可借助多种文本向量化方法(如TF-IDF、GloVe及BERT)与分类模型(包括SVM、RNN、LSTM和GRU),训练多标签分类器以自动提取新闻中的结构化信息。数据集支持因果分析任务,例如通过构建方向性得分指标,探究新闻情绪与黄金价格波动间的统计关系。在实际应用中,投资者与政策制定者可利用训练好的模型实时解析新闻流,识别价格信号与市场情绪,辅助决策过程。数据集的开放共享为商品市场新闻分析开辟了新的研究路径。
背景与挑战
背景概述
在金融信息学领域,新闻文本对市场动态的影响一直是研究焦点,尤其针对股票市场的情感分析已较为成熟,而商品市场,特别是黄金,其价格波动与新闻流的关系尚未得到充分探索。Gold News Dataset由印度管理学院艾哈迈达巴德分校的Ankur Sinha与Tanmay Khandait于2020年发布,旨在填补这一空白。该数据集收录了2000年至2019年间全球范围内的11,412条人工标注黄金新闻标题,核心研究问题在于从新闻中提取多维信息——如价格走势、资产比较及一般性资讯——以揭示新闻对黄金价格的因果效应。这一资源为投资者与政策制定者提供了分析工具,推动了商品市场新闻分析的研究进程,对金融自然语言处理领域具有显著影响力。
当前挑战
Gold News Dataset所解决的领域问题在于商品市场新闻分析,其挑战包括:黄金价格高度波动,新闻中的隐含信息(如方向性、时间维度)需精细提取,而现有研究多依赖专有软件如TRNA,缺乏公开数据集以支持机器学习模型开发。构建过程中的挑战则体现在数据标注的复杂性上:新闻标题需按九维类别(如价格升降、过去与未来信息、资产比较)进行人工标注,这要求标注者具备领域专业知识,且需通过共识机制解决标注分歧,确保数据一致性与高质量;此外,数据来源于多个新闻站点,需处理文本的异构性与时间跨度,以构建可靠的分析基础。
常用场景
经典使用场景
在金融文本挖掘领域,Gold News Dataset 被广泛用于探索新闻文本与黄金价格之间的动态关联。该数据集通过人工标注的新闻标题,为研究者提供了丰富的多维度信息,包括价格变动方向、时间周期以及资产比较等。经典应用场景涉及利用机器学习模型,如支持向量机(SVM)和深度神经网络(如LSTM、GRU),对新闻标题进行分类,以预测黄金市场的价格趋势。这一过程不仅验证了新闻信息对商品市场的因果影响,还为量化金融分析提供了可复现的实验基础。
衍生相关工作
Gold News Dataset 催生了多项经典研究工作,推动了金融文本分析领域的创新。基于该数据集,研究者扩展了新闻情感分析模型,如将BERT等预训练语言模型适配到金融领域,显著提升了分类性能。衍生研究还包括结合社交媒体数据(如Twitter)与新闻流,构建多源信息融合框架,以更全面地预测黄金价格。此外,该数据集激发了商品市场因果分析的新方法,例如使用方向性评分建立回归模型,验证新闻与价格间的长期关联。这些工作共同丰富了商品市场新闻挖掘的理论与实践。
数据集最近研究
最新研究方向
在金融文本挖掘领域,Gold News Dataset的推出为商品市场新闻分析开辟了新路径。该数据集聚焦黄金新闻标题的多维度标注,包括价格走势、资产比较及时间信息,推动了基于自然语言处理的前沿研究。当前研究热点集中于利用预训练语言模型如BERT的金融领域适配版本,以提升新闻情感与价格因果关系的解析精度。这一进展不仅强化了新闻流对黄金价格影响的实证基础,还为投资者和政策制定者提供了实时市场情绪监测工具,对理解高波动性商品市场的驱动机制具有显著意义。
相关研究论文
  • 1
    Impact of News on the Commodity Market: Dataset and Results印度艾哈迈达巴德管理学院生产与定量方法系 · 2020年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作