five

arXiv Quantitative Finance Papers

收藏
arXiv2024-08-22 更新2024-08-28 收录
下载链接:
http://arxiv.org/abs/2408.12097v1
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集名为‘arXiv定量金融论文’,由爱知工业大学等机构创建,包含181篇与定量金融相关的学术论文。数据集内容涉及机器学习模型和数据集的使用,旨在通过分析这些论文中的信息,支持决策制定和自动推荐合适的机器学习方法和数据集。数据集的创建过程包括使用Llama2和Llama3模型进行信息提取,并通过E5模型进行嵌入和聚类,以分析各元素间的共现关系。该数据集主要应用于定量金融领域,旨在解决机器学习方法和数据集的自动推荐问题。
提供机构:
爱知工业大学、东京大学、北海道大学、长冈技术科学大学、埼玉大学
创建时间:
2024-08-22
搜集汇总
数据集介绍
main_image_url
构建方式
arXiv Quantitative Finance Papers数据集的构建采用LLama2和LLama3语言模型,从论文中提取研究目标、机器学习方法和数据集名称,并通过E5嵌入模型对提取的表达式进行聚类以合并同义词,进而使用 Girvan 和 Newman 算法构建共现图并进行网络聚类,分析研究目标、数据集和机器学习方法之间的关系。
特点
该数据集的特点在于,它不仅提取了机器学习模型和数据集的名称,还提取了研究目标,并通过构建共现图和网络聚类来分析它们之间的相互关系。此外,该数据集在定量金融领域的论文中表现出色,能够识别出使用最新数据集的研究趋势,包括与ESG相关的数据集。
使用方法
使用该数据集时,用户可以利用LLama模型提取论文中的关键信息,通过E5模型进行同义词聚类,再使用Girvan和Newman算法对共现图进行网络聚类,从而分析不同研究目标、数据集和机器学习方法之间的关联。该数据集适合于研究人员进行机器学习在金融领域应用的研究,以及为特定任务推荐合适的数据集和机器学习模型。
背景与挑战
背景概述
arXiv Quantitative Finance Papers数据集源于对学术文献中研究目标、机器学习模型名称及数据集名称的提取,旨在通过对这些信息的分析,以辅助决策者在特定任务中自动推荐适用的机器学习方法和数据集。该研究由S. Nishio, H. Nonaka, N. Tsuchiya等学者共同完成,并于2024年8月23日发表。研究背景在于机器学习在各行各业的应用日益广泛,而选择合适的数据和机器学习方法来解决特定问题需要领域知识和机器学习知识。此项研究对于从学术论文中提取技术术语,如机器学习方法和数据集名称,以支持决策制定具有重要意义。研究通过对arXiv上定量金融领域的论文进行分析,展示了其在提取信息和分析信息间关系方面的实用性。
当前挑战
该数据集在构建过程中面临的挑战主要包括:一是如何准确提取学术文献中的研究目标、机器学习模型名称和数据集名称,这要求所使用的方法能够处理复杂的语言结构和同义词问题;二是如何有效分析提取的信息之间的关系,这涉及到构建共现图和网络聚类,以揭示不同技术术语之间的联系。此外,数据集的构建还需克服如何处理具有独特性的数据集名称、训练和测试数据集的区分等问题。
常用场景
经典使用场景
arXiv Quantitative Finance Papers数据集的典型应用场景在于,通过提取研究目标、机器学习模型名称和数据集名称,进而分析这些信息之间的相互关系。该数据集特别适用于量化金融领域的学术文献,借助大型语言模型Llama2和Llama3进行信息抽取,并通过嵌入模型E5对同义词进行聚类,从而构建出研究目标、机器学习方法和数据集之间的共现网络,以供后续分析。
衍生相关工作
基于该数据集的研究衍生出了多个相关工作,包括对其他领域学术文献中技术术语和效果术语的提取方法,以及利用专利引文网络进行社区检测和增长潜力预测的技术。这些衍生工作进一步扩展了该数据集的应用范围,并推动了学术研究中信息提取和整合技术的发展。
数据集最近研究
最新研究方向
在定量金融领域,最新研究通过运用大规模语言模型LLama2和LLama3,实现了从学术论文中提取研究目标、机器学习模型名称和数据集名称,并通过构建共现图和网络聚类分析它们之间的相互关系。此方法不仅提高了数据集和机器学习模型推荐的自动化水平,而且对于发掘使用最新数据集的研究趋势,如ESG(环境、社会和治理)数据,具有重要的实践意义。研究结果表明,该方法在信息提取方面的表现优异,为定量金融领域的研究趋势可视化提供了有力工具。
相关研究论文
  • 1
    Extraction of Research Objectives, Machine Learning Model Names, and Dataset Names from Academic Papers and Analysis of Their Interrelationships Using LLM and Network Analysis爱知工业大学、东京大学、北海道大学、长冈技术科学大学、埼玉大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作