amphora/lmsys-finance
收藏Hugging Face2023-10-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/amphora/lmsys-finance
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: conversation_id
dtype: string
- name: model
dtype: string
- name: conversation
dtype: string
- name: turn
dtype: int64
- name: language
dtype: string
- name: openai_moderation
dtype: string
- name: redacted
dtype: bool
- name: count
dtype: int64
- name: __index_level_0__
dtype: int64
splits:
- name: train
num_bytes: 10328855
num_examples: 735
download_size: 3912614
dataset_size: 10328855
task_categories:
- conversational
language:
- en
tags:
- finance
size_categories:
- n<1K
---
# Dataset Card for "lmsys-finance"
This dataset is a curated version of the [lmsys-chat-1m](https://huggingface.co/datasets/lmsys/lmsys-chat-1m) dataset,
focusing solely on finance-related conversations. The refinement process encompassed:
1. Removing non-English conversations.
2. Selecting conversations from models: "vicuna-33b", "wizardlm-13b", "gpt-4", "gpt-3.5-turbo", "claude-2", "palm-2", and "claude-instant-1".
3. Excluding conversations with responses under 30 characters.
4. Using 100 financial keywords, choosing conversations with at least 10 keywords.
### 数据集信息
#### 特征
- 会话ID(conversation_id):字符串类型
- 模型(model):字符串类型
- 会话内容(conversation):字符串类型
- 轮次(turn):64位整数类型
- 语言(language):字符串类型
- OpenAI审核结果(openai_moderation):字符串类型
- 脱敏标记(redacted):布尔类型
- 计数(count):64位整数类型
- 索引层级0(__index_level_0__):64位整数类型
#### 数据拆分
- 训练集(train):字节占用10328855,样本数量735
整体下载大小:3912614字节,数据集总字节大小:10328855字节
#### 任务类别
对话式(conversational)
#### 语言
英语(en)
#### 标签
金融(finance)
#### 规模类别
样本量少于1000(n<1K)
---
# "lmsys-finance"数据集卡片
本数据集是[lmsys-chat-1m](https://huggingface.co/datasets/lmsys/lmsys-chat-1m)数据集的精选版本,仅聚焦于金融相关的对话内容。本次筛选优化流程包含以下步骤:
1. 移除所有非英语会话
2. 从以下模型的对话中进行筛选:vicuna-33b、wizardlm-13b、gpt-4、gpt-3.5-turbo、claude-2、palm-2 以及 claude-instant-1
3. 剔除回复长度不足30个字符的会话
4. 采用100个金融关键词,筛选出包含至少10个关键词的会话
提供机构:
amphora
原始信息汇总
数据集概述
数据集信息
- 特征列表:
conversation_id: 字符串类型model: 字符串类型conversation: 字符串类型turn: 整数类型language: 字符串类型openai_moderation: 字符串类型redacted: 布尔类型count: 整数类型__index_level_0__: 整数类型
- 数据分割:
train: 包含735个样本,占用10328855字节
- 下载大小:3912614字节
- 数据集大小:10328855字节
任务类别
- 对话型
语言
- 英语
标签
- 金融
大小类别
- 样本数小于1K
数据集处理
- 移除非英语对话
- 选择特定模型("vicuna-33b", "wizardlm-13b", "gpt-4", "gpt-3.5-turbo", "claude-2", "palm-2", "claude-instant-1")的对话
- 排除回复少于30个字符的对话
- 使用100个金融关键词,选择至少包含10个关键词的对话
搜集汇总
数据集介绍

构建方式
该数据集是通过精心筛选和提炼过程构建而成,其基础为lmsys-chat-1m数据集,专注重于金融相关对话。构建过程中,首先移除了非英语对话,随后选择了特定模型生成的对话,并排除了回应长度不足30字符的对话。最终,通过筛选包含至少10个金融关键词的对话,形成了一个专注于金融领域的对话数据集。
特点
lmsys-finance数据集具备几个显著特点:专注于金融领域的对话内容,确保了数据的相关性和专业性;仅包含英语对话,保证了语言的一致性;选取了多个知名模型生成的对话,增加了数据的多样性。此外,通过设定关键词筛选标准,该数据集在金融话题的覆盖面上具有较高的一致性和深度。
使用方法
使用lmsys-finance数据集时,用户首先需要通过HuggingFace的API或直接下载方式获取数据。由于数据集已经过预处理,用户可以直接进行对话系统的训练或评估。同时,数据集中的元数据信息,如对话ID、模型类型、对话轮次等,可以用于更细致的数据分析和特征工程任务。
背景与挑战
背景概述
在人工智能领域,对话系统的构建与优化始终是一个核心议题。amphora/lmsys-finance数据集,诞生于对lmsys-chat-1m数据集的深度挖掘与精炼,专注于金融领域的对话记录。该数据集的创建,旨在为研究者提供一个针对性的资源,以推动金融对话系统的开发与完善。自构建以来,该数据集受到了广泛关注,对金融信息处理、自然语言理解等相关领域产生了显著影响。
当前挑战
尽管amphora/lmsys-finance数据集为金融对话研究提供了宝贵的资源,但在实际应用中仍面临诸多挑战。首先,数据集中对话的多样性和复杂性要求模型具备高度的适应性和准确性。其次,构建过程中对非英语对话的剔除、关键词筛选等步骤,虽然提高了数据集的针对性,但也可能限制了其在多语言环境中的应用。此外,数据集中对话的长度和质量不一,为模型的训练和评估带来了额外的难度。
常用场景
经典使用场景
在金融领域的研究与应用中,amphora/lmsys-finance数据集以其专业性和针对性,成为构建金融对话系统的经典资源。该数据集由精选的金融相关对话构成,适用于自然语言处理模型在金融场景下的训练与评估,确保了模型在金融对话中的准确性与适应性。
衍生相关工作
基于amphora/lmsys-finance数据集,研究人员已经衍生出一系列相关工作,包括但不限于金融对话系统的构建、金融文本的情感分析以及金融风险预测模型的开发。这些研究进一步拓展了金融领域的人工智能应用,为金融科技的发展做出了积极贡献。
数据集最近研究
最新研究方向
在金融对话系统的研究领域,'amphora/lmsys-finance'数据集的构建旨在提升模型对金融话题的理解与交互能力。该数据集精选自'lmsys-chat-1m',专一聚焦于金融相关对话,通过严格筛选,确保了数据的质量与相关性。目前,研究者正利用此数据集探索对话生成模型在金融咨询、风险评估等方面的应用,以期推动金融科技的发展。该数据集的发布,为金融领域自然语言处理技术的进步提供了新的契机,具有不可忽视的研究价值与实际意义。
以上内容由遇见数据集搜集并总结生成



