yatharth97/PLP_llama2_v4
收藏Hugging Face2024-06-10 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/yatharth97/PLP_llama2_v4
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含结构化文本条目,旨在训练自然语言处理模型进行财务文档分析任务。每个条目包括系统提示和用户查询,使用特定标签格式化,以提供上下文指令。数据集特别针对10K报告,用于开发和评估能够处理和响应财务报告查询的模型。数据集的局限性在于其高度专业化,可能不适用于其他类型的文档或查询。数据集包含约42.3k行,每行数据格式为单个文本字段,封装在<s>标签内,包含系统和用户指令。
提供机构:
yatharth97
原始信息汇总
Structured Financial Document Queries Dataset 概述
数据集描述
该数据集包含结构化文本条目,旨在训练自然语言处理模型进行金融文档分析任务。每个条目包括系统提示和用户查询,格式化特定标签以向模型提供上下文指令。
标签和格式
<s>: 标记新段落的开始,封装单个条目。<<SYS>>: 系统提示,提供处理上下文或特定指令。[INST]: 结合标签,包括系统提示和与金融文档相关的用户查询。
预期用途
数据集旨在开发和评估能够处理和响应与金融报告(特别是10K报告)相关查询的模型。它旨在增强模型基于结构化指令数据理解和生成上下文感知响应的能力。
数据集大小和结构
- 行数: 约42.3k
- 数据格式: 每行一个文本字段,每个文本封装在
<s>标签内,包含系统和用户指令([INST])。
数据字段
- text: 包含模型完整指令集的字符串,由系统提示和用户查询组成,专门格式化以促进金融文档查询处理的模型训练。
来源
该数据集从各种金融报告和相关查询中编译而来,格式化包括用于在受控环境中训练对话模型的标签。
使用场景
此数据集适用于需要与金融数据库交互或协助金融决策过程的模型训练。可用于训练聊天机器人、自动报告摘要器和其他需要理解金融报告并能够响应相关查询的AI工具。



