five

ceadar-ie/FinTalk-19k

收藏
Hugging Face2023-11-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ceadar-ie/FinTalk-19k
下载链接
链接失效反馈
官方服务:
资源简介:
FinTalk-19k是一个专注于金融对话的领域特定数据集,旨在用于大型语言模型(LLMs)的微调。数据集来源于Reddit的公开对话,包含超过19,000条条目,每条条目代表一个关于金融话题的对话。数据集的结构包括指令、响应、上下文和标签等字段。数据集的主要语言是英语,适用于语言建模和文本生成任务。

FinTalk-19k是一个专注于金融对话的领域特定数据集,旨在用于大型语言模型(LLMs)的微调。数据集来源于Reddit的公开对话,包含超过19,000条条目,每条条目代表一个关于金融话题的对话。数据集的结构包括指令、响应、上下文和标签等字段。数据集的主要语言是英语,适用于语言建模和文本生成任务。
提供机构:
ceadar-ie
原始信息汇总

数据集卡片:FinTalk-19k

数据集描述

数据集概述

FinTalk-19k 是一个特定领域的数据集,旨在用于大型语言模型(LLM)的微调,专注于金融对话。该数据集从公共 Reddit 对话中提取,标记有“个人理财”、“财务信息”和“公众情绪”等类别。它包含超过 19,000 条条目,每条代表一个关于金融话题的对话。

支持的任务和排行榜

  • language-modeling:该数据集可用于在金融讨论的背景下训练语言模型。
  • text-generation:适用于生成金融对话中的回复。

语言

该数据集主要为英语。

数据集结构

数据实例

FinTalk-19k 中的每个数据实例包括一个金融对话,包含一个 instruction(问题或主题)、一个 response、额外的 context 和一个分类 tag。例如,一个数据实例可能有一个关于寻求技能有限人士的工作建议的 instruction,一个建议卡车驾驶的 response,解释该人士情况的 context,以及一个“个人理财”的 tag

数据字段

  • instruction:对话的问题或主题。
  • response:提供的回答或信息。
  • context:对话的背景或额外细节。
  • tag:对话的分类标签,例如“个人理财”。

使用数据的注意事项

数据集的社会影响

该数据集可以提高 AI 对金融话题的理解,有助于开发更知情和上下文感知的金融聊天机器人或助手。

偏见的讨论

  • 该数据集反映了 Reddit 上的公众意见,可能包含主观观点和 Reddit 特定的语言。
  • 该数据集专注于 Reddit 对话,可能限制其对更广泛金融话语的适用性。

许可证/归属

版权所有 © 2023 CeADAR Connect Group。由 CeADAR(ceadar.ie)开发,其使用受 Apache 2.0 许可证约束。

反馈

如有关于数据集的问题或反馈,请将您的通信发送至 ahtsham.zafar@ucd.ie

免责声明

该数据集“按原样”提供,不附带任何保证或担保。尽管数据已经过谨慎处理,但 CeADAR Connect Group 不对数据中的任何错误、遗漏或差异负责。用户应自行决定使用此数据集,并承担与其使用相关的任何风险。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作