five

csujeong/financial_company_revenue

收藏
Hugging Face2023-12-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/csujeong/financial_company_revenue
下载链接
链接失效反馈
官方服务:
资源简介:
company_revenue_train.csv数据集包含12,515行高质量的虚构研究模式,这些模式属于公开市场股票类别,用于问答对,具有高困惑度。数据是通过OpenAI API使用`davinci-turbo`生成的,提示词设计用于激发基于现实的虚构研究示例。每个调用生成一个带有`[Company]`掩码的单次问答示例,该掩码具有高困惑度,因此需要多个后续问题(或答案本身需要两个外部上下文来源)。在每次问答示例之间,从股票申报数据搜索中虚构出所需的上下文。`[Company]`实例被替换为118家公司列表中的随机公司。数据集还过滤了适合特定条件的行,选择了高困惑度的行。

company_revenue_train.csv数据集包含12,515行高质量的虚构研究模式,这些模式属于公开市场股票类别,用于问答对,具有高困惑度。数据是通过OpenAI API使用`davinci-turbo`生成的,提示词设计用于激发基于现实的虚构研究示例。每个调用生成一个带有`[Company]`掩码的单次问答示例,该掩码具有高困惑度,因此需要多个后续问题(或答案本身需要两个外部上下文来源)。在每次问答示例之间,从股票申报数据搜索中虚构出所需的上下文。`[Company]`实例被替换为118家公司列表中的随机公司。数据集还过滤了适合特定条件的行,选择了高困惑度的行。
提供机构:
csujeong
原始信息汇总

ehc-contrived-financial 数据集概述

基本信息

  • 许可证: Apache 2.0
  • 任务类别: 问答
  • 语言: 英语
  • 数据规模: 10K<n<100K
  • 名称: ehc-contrived-financial

描述

  • 数据文件: company_revenue_train.csv
  • 数据量: 包含12,515行
  • 数据类型: 高质量的虚构研究模式
  • 应用场景: 公共市场股票类别中的问答对,具有高困惑度
  • 数据生成: 使用OpenAI的davinci-turbo模型,通过精心设计的提示生成

数据生成过程

  1. 生成单次问答示例: 使用[Company]语法,具有高困惑度,需要多个后续问题或答案本身需要两个外部上下文来源。
  2. 虚构上下文: 在每个问答示例的问答之间,虚构来自股票备案数据的上下文。
  3. 替换公司名称: 将[Company]实例替换为随机选择的118家公司之一。
  4. 过滤条件: 根据特定条件过滤所有行,选择高困惑度的数据。

数据特点

  • 虚构性: 数据中的上下文是虚构的,用于研究模型微调中的组合性差距。
  • 挑战: 对于高困惑度的问题,模型可能无法进行有效的推理和上下文检索。

引用

  • 数据生成方法: 使用精心设计的提示从世界级模型生成数据。
  • 困惑度定义: 参考文献[@misc{press2023measuring, title={Measuring and Narrowing the Compositionality Gap in Language Models}, author={Ofir Press and Muru Zhang and Sewon Min and Ludwig Schmidt and Noah A. Smith and Mike Lewis}, year={2023}, eprint={2210.03350}, archivePrefix={arXiv}, primaryClass={cs.CL}}]
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作