dylanalloy/ehc-contrived-financial

Name: dylanalloy/ehc-contrived-financial
Creator: dylanalloy
Published: 2023-12-27 14:40:26
License: 暂无描述

Hugging Face2023-12-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/dylanalloy/ehc-contrived-financial

下载链接

链接失效反馈

官方服务：

资源简介：

`train.csv`数据集包含12,514行高质量的人工构造的研究模式，这些模式属于公开市场股票类别的问答对，具有高困惑度。数据是通过OpenAI API使用davinci-turbo模型生成的，通过特定的提示工程来激发基于现实的幻觉研究示例。数据集中的问答对包含一个使用`[Company]`语法的高困惑度主题，需要多个后续问题或两个外部上下文来源来回答。此外，数据集中`[Company]`的实例被替换为118家公司中的随机一家。README还提到了数据集的局限性，包括模型在未微调的情况下处理高困惑度问题的能力，以及使用人工构造的数据集可能带来的挑战。

提供机构：

dylanalloy

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 问答
语言: 英语
数据集名称: ehc-contrived-financial
数据集大小: 10K<n<100K

数据集描述

数据集文件: train.csv
数据量: 包含12,514行数据
数据内容: 高质量的虚构研究模式，针对公共市场股票类别的问答对，具有高困惑度。
数据生成方式: 使用OpenAI的davinci-turbo模型，通过精心设计的提示生成，每次调用生成一个具有高困惑度的问答示例，其中包含对[Company]的替换和基于股票备案数据的虚构上下文。

数据集特点

虚构性质: 数据集中的上下文并非真实，用于研究模型微调中的组合性差距。
挑战性: 数据集设计用于测试模型在处理高困惑度问题时的推理和上下文检索能力，特别是对于未经微调的问题类型。

5,000+

优质数据集

54 个

任务类型

进入经典数据集