five

sohomghosh/FinRAD_Financial_Readability_Assessment_Dataset

收藏
Hugging Face2024-06-05 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/sohomghosh/FinRAD_Financial_Readability_Assessment_Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
FinRAD(金融可读性评估数据集)包含超过13,000个金融术语的定义,用于评估这些术语的可读性。数据集的主要列包括金融术语、定义、来源和手动分配的可读性评分(0表示不可读,1表示可读)。此外,数据集还提供了使用textstat库提取的多种可读性评分,如Flesch阅读易度、Flesch-Kincaid等级、SMOG指数等。数据集的来源包括多本金融和经济学的教科书以及在线资源,如《公司金融原理》、《投资学》、《经济学教科书》等。

FinRAD(金融可读性评估数据集)包含超过13,000个金融术语的定义,用于评估这些术语的可读性。数据集的主要列包括金融术语、定义、来源和手动分配的可读性评分(0表示不可读,1表示可读)。此外,数据集还提供了使用textstat库提取的多种可读性评分,如Flesch阅读易度、Flesch-Kincaid等级、SMOG指数等。数据集的来源包括多本金融和经济学的教科书以及在线资源,如《公司金融原理》、《投资学》、《经济学教科书》等。
提供机构:
sohomghosh
原始信息汇总

数据集概述

数据集名称

  • 名称: FinRAD: Financial Readability Assessment Dataset
  • 描述: 包含超过13,000个金融术语的定义,用于衡量可读性。

数据集内容

  • 主要列:
    • "terms": 金融术语
    • "definitions": 对应金融术语的定义
    • "source": 术语和定义的来源
    • "assigned_readability": 手动分配的可读性评分(0表示不可读,1表示可读)
  • 其他列:
    • "flesch_reading_ease", "flesch_kincaid_grade", "smog_index", "coleman_liau_index", "automated_readability_index", "dale_chall_readability_score", "linsear_write_formula", "gunning_fog": 使用textstat库提取的可读性评分

数据集来源

  • 来源: 多个金融和经济学相关书籍及在线资源
  • 具体来源:
    • Principles of Corporate Finance
    • Investments
    • Economics Textbook
    • Options, Futures, and Other Derivatives
    • Financial Markets and Institutions
    • NCERT系列书籍
    • Investopedia
    • The Economist
    • Federal Reserve Bank of St. Louis的多个词汇表
    • The Palgrave Macmillan Dictionary of Finance, Investment and Banking

数据集使用许可

  • 许可: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)

数据集规模

  • 规模: 10K<n<100K

数据集语言

  • 语言: 英语

数据集任务类别

  • 任务类别: 文本分类

数据集标签

  • 标签: 金融

数据集相关资源

  • 数据收集与清洗脚本: 提供数据收集和清洗的脚本
  • 嵌入提取与模型开发脚本: 提供嵌入提取和模型开发的脚本
  • 模型: 提供训练好的模型,包括逻辑回归、GBM、随机森林等
  • 嵌入和标签: 提供完整的嵌入和标签数据

数据集引用

  • 引用: bibtex @InProceedings{ghosh-EtAl:2022:FNP, author = {Ghosh, Sohom and Sengupta, Shovon and Naskar, Sudip Kumar and Singh, Sunny Kumar}, title = {FinRAD: Financial Readability Assessment Dataset - 13,000+ Definitions of Financial Terms for Measuring Readability}, booktitle = {Proceedings of the The 4th Financial Narrative Processing Workshop @LREC2022}, month = {June}, year = {2022}, address = {Marseille, France}, publisher = {European Language Resources Association}, pages = {1--9}, url = {http://www.lrec-conf.org/proceedings/lrec2022/workshops/FNP/pdf/2022.fnp-1.1.pdf} }

数据集联系方式

  • 联系邮箱: sohom1ghosh@gmail.com
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作