csujeong/financial_company_revenue

Name: csujeong/financial_company_revenue
Creator: csujeong
Published: 2023-12-24 09:45:17
License: 暂无描述

Hugging Face2023-12-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/csujeong/financial_company_revenue

下载链接

链接失效反馈

官方服务：

资源简介：

company_revenue_train.csv数据集包含12,515行高质量的虚构研究模式，这些模式属于公开市场股票类别，用于问答对，具有高困惑度。数据是通过OpenAI API使用`davinci-turbo`生成的，提示词设计用于激发基于现实的虚构研究示例。每个调用生成一个带有`[Company]`掩码的单次问答示例，该掩码具有高困惑度，因此需要多个后续问题（或答案本身需要两个外部上下文来源）。在每次问答示例之间，从股票申报数据搜索中虚构出所需的上下文。`[Company]`实例被替换为118家公司列表中的随机公司。数据集还过滤了适合特定条件的行，选择了高困惑度的行。

提供机构：

csujeong

原始信息汇总

ehc-contrived-financial 数据集概述

基本信息

许可证: Apache 2.0
任务类别: 问答
语言: 英语
数据规模: 10K<n<100K
名称: ehc-contrived-financial

描述

数据文件: company_revenue_train.csv
数据量: 包含12,515行
数据类型: 高质量的虚构研究模式
应用场景: 公共市场股票类别中的问答对，具有高困惑度
数据生成: 使用OpenAI的davinci-turbo模型，通过精心设计的提示生成

数据生成过程

生成单次问答示例: 使用[Company]语法，具有高困惑度，需要多个后续问题或答案本身需要两个外部上下文来源。
虚构上下文: 在每个问答示例的问答之间，虚构来自股票备案数据的上下文。
替换公司名称: 将[Company]实例替换为随机选择的118家公司之一。
过滤条件: 根据特定条件过滤所有行，选择高困惑度的数据。

数据特点

虚构性: 数据中的上下文是虚构的，用于研究模型微调中的组合性差距。
挑战: 对于高困惑度的问题，模型可能无法进行有效的推理和上下文检索。

引用

数据生成方法: 使用精心设计的提示从世界级模型生成数据。
困惑度定义: 参考文献[@misc{press2023measuring, title={Measuring and Narrowing the Compositionality Gap in Language Models}, author={Ofir Press and Muru Zhang and Sewon Min and Ludwig Schmidt and Noah A. Smith and Mike Lewis}, year={2023}, eprint={2210.03350}, archivePrefix={arXiv}, primaryClass={cs.CL}}]

5,000+

优质数据集

54 个

任务类型

进入经典数据集