DPO_CrunchApp

Hugging Face2025-04-20 更新2025-04-21 收录

下载链接：

https://huggingface.co/datasets/Anas989898/DPO_CrunchApp

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了会话信息（conversation）、选中信息（chosen）和拒绝信息（rejected），其中每个信息包含不同的结构化字段，如清洁的描述、信心分数、商家名称和交易描述等。数据集分为训练集和测试集，可用于训练模型进行会话分析和决策制定。

创建时间：

2025-04-19

原始信息汇总

数据集概述

基本信息

数据集名称: DPO_CrunchApp
下载大小: 115,571 字节
数据集大小: 1,061,134 字节

数据特征

conversation:
- content: 字符串类型
- role: 字符串类型
chosen:
- content:
  - cleaned_description: 字符串类型
  - cleaned_description_confidence_score: int64 类型
  - merchant_name: 字符串类型
  - merchant_name_confidence_score: int64 类型
  - transaction_description: 字符串类型
- role: 字符串类型
rejected:
- content:
  - cleaned_description: 字符串类型
  - cleaned_description_confidence_score: int64 类型
  - merchant_name: 字符串类型
  - merchant_name_confidence_score: int64 类型
  - transaction_description: 字符串类型
- role: 字符串类型

数据划分

train:
- 样本数量: 675
- 数据大小: 848,655.7464454976 字节
test:
- 样本数量: 169
- 数据大小: 212,478.25355450236 字节

配置文件

config_name: default
- train: data/train-*
- test: data/test-*

搜集汇总

数据集介绍

构建方式

在金融科技领域，DPO_CrunchApp数据集的构建采用了严谨的多阶段处理流程。原始数据来源于真实的交易记录，通过自然语言处理技术对交易描述进行深度清洗和标注。每条数据包含对话形式的交互记录，以及经过人工验证的优选（chosen）和拒绝（rejected）两类处理结果，其中优选结果附带置信度评分以增强数据的可靠性。数据集按4:1的比例划分为训练集和测试集，确保模型评估的科学性。

特点

该数据集最显著的特点是采用对比学习框架设计，每个样本同时包含优选和拒绝两种处理方案，为偏好优化算法提供直接对比素材。结构化字段设计精细，不仅包含清洗后的交易描述和商户名称，还配有置信度评分等元数据，为模型提供多维度的学习信号。数据规模适中但质量精良，675条训练样本和169条测试样本均经过严格筛选，适合开展小样本学习研究。

使用方法

使用该数据集时，建议优先加载HuggingFace提供的标准数据分割方案。训练过程中可利用'conversation'字段模拟真实交互场景，通过'chosen'和'rejected'字段的对比构建损失函数。置信度评分可作为训练权重参考，高置信度样本应获得更大关注。测试集适用于评估模型在商户名称识别、交易描述清洗等细分任务上的性能表现，建议结合F1分数和准确率进行综合评估。

背景与挑战

背景概述

DPO_CrunchApp数据集是近年来金融科技领域的一项重要资源，专注于交易数据清洗与商户信息识别的研究。该数据集由金融科技领域的专业团队构建，旨在解决交易描述文本的标准化与结构化问题。数据集的核心研究问题聚焦于如何从原始交易描述中准确提取商户名称和交易类别，并评估不同清洗方法的置信度。这一工作对于提升银行对账系统、个人财务管理应用的自动化水平具有显著意义，为自然语言处理在金融文本理解中的应用提供了新的基准。

当前挑战

该数据集面临的主要挑战体现在两个维度：在领域问题层面，金融交易文本普遍存在缩写、错别字和非标准表述现象，这对实体识别和文本分类的准确性提出了极高要求；在构建过程层面，数据标注需要兼顾商户名称的规范性和交易描述的语义完整性，而置信度评分的引入则要求标注者具备专业的金融领域知识。如何平衡不同清洗策略的效果评估，以及处理标注过程中存在的主观性偏差，构成了数据集构建中的关键难点。

常用场景

经典使用场景

在金融科技领域，DPO_CrunchApp数据集以其独特的对话式交易记录结构，为研究人机交互中的偏好学习提供了重要素材。该数据集通过标注用户与金融应用程序的对话记录，以及标记为‘采纳’和‘拒绝’的交易选项，为研究者分析用户在金融决策中的行为模式奠定了数据基础。

衍生相关工作

基于DPO_CrunchApp的衍生研究主要集中在三个方向：金融对话系统的意图识别模块优化、基于强化学习的用户偏好预测框架构建，以及结合置信度评分的多模态交易验证算法。这些工作显著提升了金融领域人机交互系统的智能化水平。

数据集最近研究