ceadar-ie/FinTalk-19k

Name: ceadar-ie/FinTalk-19k
Creator: ceadar-ie
Published: 2023-11-29 22:58:02
License: 暂无描述

Hugging Face2023-11-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ceadar-ie/FinTalk-19k

下载链接

链接失效反馈

官方服务：

资源简介：

FinTalk-19k是一个专注于金融对话的领域特定数据集，旨在用于大型语言模型（LLMs）的微调。数据集来源于Reddit的公开对话，包含超过19,000条条目，每条条目代表一个关于金融话题的对话。数据集的结构包括指令、响应、上下文和标签等字段。数据集的主要语言是英语，适用于语言建模和文本生成任务。

提供机构：

ceadar-ie

原始信息汇总

数据集卡片：FinTalk-19k

数据集描述

数据集概述

FinTalk-19k 是一个特定领域的数据集，旨在用于大型语言模型（LLM）的微调，专注于金融对话。该数据集从公共 Reddit 对话中提取，标记有“个人理财”、“财务信息”和“公众情绪”等类别。它包含超过 19,000 条条目，每条代表一个关于金融话题的对话。

支持的任务和排行榜

language-modeling：该数据集可用于在金融讨论的背景下训练语言模型。
text-generation：适用于生成金融对话中的回复。

语言

该数据集主要为英语。

数据集结构

数据实例

FinTalk-19k 中的每个数据实例包括一个金融对话，包含一个 instruction（问题或主题）、一个 response、额外的 context 和一个分类 tag。例如，一个数据实例可能有一个关于寻求技能有限人士的工作建议的 instruction，一个建议卡车驾驶的 response，解释该人士情况的 context，以及一个“个人理财”的 tag。

数据字段

instruction：对话的问题或主题。
response：提供的回答或信息。
context：对话的背景或额外细节。
tag：对话的分类标签，例如“个人理财”。

使用数据的注意事项

数据集的社会影响

该数据集可以提高 AI 对金融话题的理解，有助于开发更知情和上下文感知的金融聊天机器人或助手。

偏见的讨论

该数据集反映了 Reddit 上的公众意见，可能包含主观观点和 Reddit 特定的语言。
该数据集专注于 Reddit 对话，可能限制其对更广泛金融话语的适用性。

许可证/归属

反馈

如有关于数据集的问题或反馈，请将您的通信发送至 ahtsham.zafar@ucd.ie

免责声明

该数据集“按原样”提供，不附带任何保证或担保。尽管数据已经过谨慎处理，但 CeADAR Connect Group 不对数据中的任何错误、遗漏或差异负责。用户应自行决定使用此数据集，并承担与其使用相关的任何风险。

5,000+

优质数据集

54 个

任务类型

进入经典数据集