ceadar-ie/FinTalk-19k
收藏Hugging Face2023-11-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ceadar-ie/FinTalk-19k
下载链接
链接失效反馈官方服务:
资源简介:
FinTalk-19k是一个专注于金融对话的领域特定数据集,旨在用于大型语言模型(LLMs)的微调。数据集来源于Reddit的公开对话,包含超过19,000条条目,每条条目代表一个关于金融话题的对话。数据集的结构包括指令、响应、上下文和标签等字段。数据集的主要语言是英语,适用于语言建模和文本生成任务。
FinTalk-19k是一个专注于金融对话的领域特定数据集,旨在用于大型语言模型(LLMs)的微调。数据集来源于Reddit的公开对话,包含超过19,000条条目,每条条目代表一个关于金融话题的对话。数据集的结构包括指令、响应、上下文和标签等字段。数据集的主要语言是英语,适用于语言建模和文本生成任务。
提供机构:
ceadar-ie
原始信息汇总
数据集卡片:FinTalk-19k
数据集描述
数据集概述
FinTalk-19k 是一个特定领域的数据集,旨在用于大型语言模型(LLM)的微调,专注于金融对话。该数据集从公共 Reddit 对话中提取,标记有“个人理财”、“财务信息”和“公众情绪”等类别。它包含超过 19,000 条条目,每条代表一个关于金融话题的对话。
支持的任务和排行榜
language-modeling:该数据集可用于在金融讨论的背景下训练语言模型。text-generation:适用于生成金融对话中的回复。
语言
该数据集主要为英语。
数据集结构
数据实例
FinTalk-19k 中的每个数据实例包括一个金融对话,包含一个 instruction(问题或主题)、一个 response、额外的 context 和一个分类 tag。例如,一个数据实例可能有一个关于寻求技能有限人士的工作建议的 instruction,一个建议卡车驾驶的 response,解释该人士情况的 context,以及一个“个人理财”的 tag。
数据字段
instruction:对话的问题或主题。response:提供的回答或信息。context:对话的背景或额外细节。tag:对话的分类标签,例如“个人理财”。
使用数据的注意事项
数据集的社会影响
该数据集可以提高 AI 对金融话题的理解,有助于开发更知情和上下文感知的金融聊天机器人或助手。
偏见的讨论
- 该数据集反映了 Reddit 上的公众意见,可能包含主观观点和 Reddit 特定的语言。
- 该数据集专注于 Reddit 对话,可能限制其对更广泛金融话语的适用性。
许可证/归属
版权所有 © 2023 CeADAR Connect Group。由 CeADAR(ceadar.ie)开发,其使用受 Apache 2.0 许可证约束。
反馈
如有关于数据集的问题或反馈,请将您的通信发送至 ahtsham.zafar@ucd.ie
免责声明
该数据集“按原样”提供,不附带任何保证或担保。尽管数据已经过谨慎处理,但 CeADAR Connect Group 不对数据中的任何错误、遗漏或差异负责。用户应自行决定使用此数据集,并承担与其使用相关的任何风险。



