dylanalloy/ehc-contrived-financial
收藏Hugging Face2023-12-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dylanalloy/ehc-contrived-financial
下载链接
链接失效反馈官方服务:
资源简介:
`train.csv`数据集包含12,514行高质量的人工构造的研究模式,这些模式属于公开市场股票类别的问答对,具有高困惑度。数据是通过OpenAI API使用davinci-turbo模型生成的,通过特定的提示工程来激发基于现实的幻觉研究示例。数据集中的问答对包含一个使用`[Company]`语法的高困惑度主题,需要多个后续问题或两个外部上下文来源来回答。此外,数据集中`[Company]`的实例被替换为118家公司中的随机一家。README还提到了数据集的局限性,包括模型在未微调的情况下处理高困惑度问题的能力,以及使用人工构造的数据集可能带来的挑战。
提供机构:
dylanalloy
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 问答
- 语言: 英语
- 数据集名称: ehc-contrived-financial
- 数据集大小: 10K<n<100K
数据集描述
- 数据集文件:
train.csv - 数据量: 包含12,514行数据
- 数据内容: 高质量的虚构研究模式,针对公共市场股票类别的问答对,具有高困惑度。
- 数据生成方式: 使用OpenAI的
davinci-turbo模型,通过精心设计的提示生成,每次调用生成一个具有高困惑度的问答示例,其中包含对[Company]的替换和基于股票备案数据的虚构上下文。
数据集特点
- 虚构性质: 数据集中的上下文并非真实,用于研究模型微调中的组合性差距。
- 挑战性: 数据集设计用于测试模型在处理高困惑度问题时的推理和上下文检索能力,特别是对于未经微调的问题类型。



