csujeong/financial_company_revenue
收藏Hugging Face2023-12-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/csujeong/financial_company_revenue
下载链接
链接失效反馈官方服务:
资源简介:
company_revenue_train.csv数据集包含12,515行高质量的虚构研究模式,这些模式属于公开市场股票类别,用于问答对,具有高困惑度。数据是通过OpenAI API使用`davinci-turbo`生成的,提示词设计用于激发基于现实的虚构研究示例。每个调用生成一个带有`[Company]`掩码的单次问答示例,该掩码具有高困惑度,因此需要多个后续问题(或答案本身需要两个外部上下文来源)。在每次问答示例之间,从股票申报数据搜索中虚构出所需的上下文。`[Company]`实例被替换为118家公司列表中的随机公司。数据集还过滤了适合特定条件的行,选择了高困惑度的行。
company_revenue_train.csv数据集包含12,515行高质量的虚构研究模式,这些模式属于公开市场股票类别,用于问答对,具有高困惑度。数据是通过OpenAI API使用`davinci-turbo`生成的,提示词设计用于激发基于现实的虚构研究示例。每个调用生成一个带有`[Company]`掩码的单次问答示例,该掩码具有高困惑度,因此需要多个后续问题(或答案本身需要两个外部上下文来源)。在每次问答示例之间,从股票申报数据搜索中虚构出所需的上下文。`[Company]`实例被替换为118家公司列表中的随机公司。数据集还过滤了适合特定条件的行,选择了高困惑度的行。
提供机构:
csujeong
原始信息汇总
ehc-contrived-financial 数据集概述
基本信息
- 许可证: Apache 2.0
- 任务类别: 问答
- 语言: 英语
- 数据规模: 10K<n<100K
- 名称: ehc-contrived-financial
描述
- 数据文件:
company_revenue_train.csv - 数据量: 包含12,515行
- 数据类型: 高质量的虚构研究模式
- 应用场景: 公共市场股票类别中的问答对,具有高困惑度
- 数据生成: 使用OpenAI的
davinci-turbo模型,通过精心设计的提示生成
数据生成过程
- 生成单次问答示例: 使用
[Company]语法,具有高困惑度,需要多个后续问题或答案本身需要两个外部上下文来源。 - 虚构上下文: 在每个问答示例的问答之间,虚构来自股票备案数据的上下文。
- 替换公司名称: 将
[Company]实例替换为随机选择的118家公司之一。 - 过滤条件: 根据特定条件过滤所有行,选择高困惑度的数据。
数据特点
- 虚构性: 数据中的上下文是虚构的,用于研究模型微调中的组合性差距。
- 挑战: 对于高困惑度的问题,模型可能无法进行有效的推理和上下文检索。
引用
- 数据生成方法: 使用精心设计的提示从世界级模型生成数据。
- 困惑度定义: 参考文献[@misc{press2023measuring, title={Measuring and Narrowing the Compositionality Gap in Language Models}, author={Ofir Press and Muru Zhang and Sewon Min and Ludwig Schmidt and Noah A. Smith and Mike Lewis}, year={2023}, eprint={2210.03350}, archivePrefix={arXiv}, primaryClass={cs.CL}}]



