amphora/lmsys-finance

Name: amphora/lmsys-finance
Creator: amphora
Published: 2023-10-10 12:25:26
License: 暂无描述

Hugging Face2023-10-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/amphora/lmsys-finance

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: conversation_id dtype: string - name: model dtype: string - name: conversation dtype: string - name: turn dtype: int64 - name: language dtype: string - name: openai_moderation dtype: string - name: redacted dtype: bool - name: count dtype: int64 - name: __index_level_0__ dtype: int64 splits: - name: train num_bytes: 10328855 num_examples: 735 download_size: 3912614 dataset_size: 10328855 task_categories: - conversational language: - en tags: - finance size_categories: - n<1K --- # Dataset Card for "lmsys-finance" This dataset is a curated version of the [lmsys-chat-1m](https://huggingface.co/datasets/lmsys/lmsys-chat-1m) dataset, focusing solely on finance-related conversations. The refinement process encompassed: 1. Removing non-English conversations. 2. Selecting conversations from models: "vicuna-33b", "wizardlm-13b", "gpt-4", "gpt-3.5-turbo", "claude-2", "palm-2", and "claude-instant-1". 3. Excluding conversations with responses under 30 characters. 4. Using 100 financial keywords, choosing conversations with at least 10 keywords.

### 数据集信息 #### 特征 - 会话ID（conversation_id）：字符串类型 - 模型（model）：字符串类型 - 会话内容（conversation）：字符串类型 - 轮次（turn）：64位整数类型 - 语言（language）：字符串类型 - OpenAI审核结果（openai_moderation）：字符串类型 - 脱敏标记（redacted）：布尔类型 - 计数（count）：64位整数类型 - 索引层级0（__index_level_0__）：64位整数类型 #### 数据拆分 - 训练集（train）：字节占用10328855，样本数量735 整体下载大小：3912614字节，数据集总字节大小：10328855字节 #### 任务类别对话式（conversational） #### 语言英语（en） #### 标签金融（finance） #### 规模类别样本量少于1000（n<1K） --- # "lmsys-finance"数据集卡片本数据集是[lmsys-chat-1m](https://huggingface.co/datasets/lmsys/lmsys-chat-1m)数据集的精选版本，仅聚焦于金融相关的对话内容。本次筛选优化流程包含以下步骤： 1. 移除所有非英语会话 2. 从以下模型的对话中进行筛选：vicuna-33b、wizardlm-13b、gpt-4、gpt-3.5-turbo、claude-2、palm-2 以及 claude-instant-1 3. 剔除回复长度不足30个字符的会话 4. 采用100个金融关键词，筛选出包含至少10个关键词的会话

提供机构：

amphora

原始信息汇总

数据集概述

数据集信息

特征列表：
- conversation_id: 字符串类型
- model: 字符串类型
- conversation: 字符串类型
- turn: 整数类型
- language: 字符串类型
- openai_moderation: 字符串类型
- redacted: 布尔类型
- count: 整数类型
- __index_level_0__: 整数类型
数据分割：
- train: 包含735个样本，占用10328855字节
下载大小：3912614字节
数据集大小：10328855字节

任务类别

对话型

语言

英语

大小类别

样本数小于1K

数据集处理

移除非英语对话
选择特定模型（"vicuna-33b", "wizardlm-13b", "gpt-4", "gpt-3.5-turbo", "claude-2", "palm-2", "claude-instant-1"）的对话
排除回复少于30个字符的对话
使用100个金融关键词，选择至少包含10个关键词的对话

搜集汇总

数据集介绍

构建方式

该数据集是通过精心筛选和提炼过程构建而成，其基础为lmsys-chat-1m数据集，专注重于金融相关对话。构建过程中，首先移除了非英语对话，随后选择了特定模型生成的对话，并排除了回应长度不足30字符的对话。最终，通过筛选包含至少10个金融关键词的对话，形成了一个专注于金融领域的对话数据集。

特点

lmsys-finance数据集具备几个显著特点：专注于金融领域的对话内容，确保了数据的相关性和专业性；仅包含英语对话，保证了语言的一致性；选取了多个知名模型生成的对话，增加了数据的多样性。此外，通过设定关键词筛选标准，该数据集在金融话题的覆盖面上具有较高的一致性和深度。

使用方法

使用lmsys-finance数据集时，用户首先需要通过HuggingFace的API或直接下载方式获取数据。由于数据集已经过预处理，用户可以直接进行对话系统的训练或评估。同时，数据集中的元数据信息，如对话ID、模型类型、对话轮次等，可以用于更细致的数据分析和特征工程任务。

背景与挑战

背景概述

在人工智能领域，对话系统的构建与优化始终是一个核心议题。amphora/lmsys-finance数据集，诞生于对lmsys-chat-1m数据集的深度挖掘与精炼，专注于金融领域的对话记录。该数据集的创建，旨在为研究者提供一个针对性的资源，以推动金融对话系统的开发与完善。自构建以来，该数据集受到了广泛关注，对金融信息处理、自然语言理解等相关领域产生了显著影响。

当前挑战

尽管amphora/lmsys-finance数据集为金融对话研究提供了宝贵的资源，但在实际应用中仍面临诸多挑战。首先，数据集中对话的多样性和复杂性要求模型具备高度的适应性和准确性。其次，构建过程中对非英语对话的剔除、关键词筛选等步骤，虽然提高了数据集的针对性，但也可能限制了其在多语言环境中的应用。此外，数据集中对话的长度和质量不一，为模型的训练和评估带来了额外的难度。

常用场景

经典使用场景

在金融领域的研究与应用中，amphora/lmsys-finance数据集以其专业性和针对性，成为构建金融对话系统的经典资源。该数据集由精选的金融相关对话构成，适用于自然语言处理模型在金融场景下的训练与评估，确保了模型在金融对话中的准确性与适应性。

衍生相关工作

基于amphora/lmsys-finance数据集，研究人员已经衍生出一系列相关工作，包括但不限于金融对话系统的构建、金融文本的情感分析以及金融风险预测模型的开发。这些研究进一步拓展了金融领域的人工智能应用，为金融科技的发展做出了积极贡献。

数据集最近研究