aciborowska/customers-complaints-train-eval

Name: aciborowska/customers-complaints-train-eval
Creator: aciborowska
Published: 2023-11-27 17:11:53
License: 暂无描述

Hugging Face2023-11-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/aciborowska/customers-complaints-train-eval

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: Date_received dtype: string - name: Product dtype: string - name: Sub_product dtype: string - name: Issue dtype: string - name: Sub_issue dtype: string - name: Consumer_complaint_narrative dtype: string - name: Company_public_response dtype: string - name: Company dtype: string - name: State dtype: string - name: ZIP_code dtype: string - name: Tags dtype: string - name: Consumer_consent_provided? dtype: string - name: Submitted_via dtype: string - name: Date_sent_to_company dtype: string - name: Company response to consumer dtype: string - name: Timely_response? dtype: string - name: Consumer_disputed? dtype: string - name: Complaint_ID dtype: int64 splits: - name: train num_bytes: 36271224 num_examples: 27000 download_size: 14216092 dataset_size: 36271224 configs: - config_name: default data_files: - split: train path: data/train-* --- # Dataset Card for "customers-complaints-train-eval" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

数据集信息：特征： - 名称：接收日期（Date_received），数据类型：字符串 - 名称：产品（Product），数据类型：字符串 - 名称：子产品（Sub_product），数据类型：字符串 - 名称：投诉问题（Issue），数据类型：字符串 - 名称：子问题（Sub_issue），数据类型：字符串 - 名称：消费者投诉详情（Consumer_complaint_narrative），数据类型：字符串 - 名称：公司公开回复（Company_public_response），数据类型：字符串 - 名称：涉事公司（Company），数据类型：字符串 - 名称：所在州（State），数据类型：字符串 - 名称：邮政编码（ZIP_code），数据类型：字符串 - 名称：标签（Tags），数据类型：字符串 - 名称：是否已获得消费者同意（Consumer_consent_provided?），数据类型：字符串 - 名称：提交途径（Submitted_via），数据类型：字符串 - 名称：发送至公司的日期（Date_sent_to_company），数据类型：字符串 - 名称：公司对消费者的回复（Company response to consumer），数据类型：字符串 - 名称：是否及时回复（Timely_response?），数据类型：字符串 - 名称：消费者是否提出异议（Consumer_disputed?），数据类型：字符串 - 名称：投诉编号（Complaint_ID），数据类型：int64 数据集划分： - 名称：训练集（train），字节大小：36271224，样本数量：27000 下载大小：14216092 数据集总大小：36271224 数据集配置： - 配置名称：默认（default），数据文件： - 划分：训练集，文件路径：data/train-* # "客户投诉训练与评估"数据集卡片 [更多信息待补充](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

aciborowska

原始信息汇总

数据集概述

特征信息

数据集包含以下特征：

Date_received: 类型为字符串
Product: 类型为字符串
Sub_product: 类型为字符串
Issue: 类型为字符串
Sub_issue: 类型为字符串
Consumer_complaint_narrative: 类型为字符串
Company_public_response: 类型为字符串
Company: 类型为字符串
State: 类型为字符串
ZIP_code: 类型为字符串
Tags: 类型为字符串
Consumer_consent_provided?: 类型为字符串
Submitted_via: 类型为字符串
Date_sent_to_company: 类型为字符串
Company response to consumer: 类型为字符串
Timely_response?: 类型为字符串
Consumer_disputed?: 类型为字符串
Complaint_ID: 类型为64位整数

数据分割

train: 包含27000个样本，占用36271224字节

数据集大小

下载大小: 14216092字节
数据集大小: 36271224字节

配置信息

config_name: default
data_files:
- split: train
- path: data/train-*

搜集汇总

数据集介绍

构建方式

该数据集‘aciborowska/customers-complaints-train-eval’的构建，依托于消费者对于金融产品或服务的投诉记录。数据集整合了消费者的投诉详情、公司的公开回应、投诉的处理状态等维度信息，涵盖了日期、产品种类、投诉问题等多个字段。通过精确的字段划分，构建出27000条训练样本，为金融领域投诉处理的自然语言处理任务提供了丰富的学习材料。

特点

此数据集的特点在于其详尽的字段设置，涵盖了从投诉日期、产品类别，到消费者投诉的具体内容、公司的回应，以及消费者的满意度等多个维度。这些丰富的信息不仅有助于模型的训练，也便于研究者对消费者的投诉行为进行深入的分析。此外，数据集的划分清晰，训练集的规模适中，便于进行有效的模型训练与评估。

使用方法

使用该数据集时，用户可根据具体的任务需求，通过HuggingFace的datasets库轻松加载训练和评估数据。数据集以默认配置提供，用户可通过路径指向的文件直接访问。在模型训练前，建议对数据进行适当的预处理，如文本清洗、字段编码等，以确保模型能够有效学习并提升性能。同时，数据集的多样化字段也为复杂的特征工程提供了可能，有助于进一步提升模型的预测能力。

背景与挑战

背景概述

在消费者权益保护领域，'aciborowska/customers-complaints-train-eval'数据集的构建，为研究者和企业提供了一个宝贵的资源。该数据集由多个字段组成，涵盖了消费者投诉的详细叙述、公司回应、投诉的性质和分类等信息。创建于近年，该数据集由数据科学家团队aciborowska主导，旨在推动消费者投诉处理系统的智能化。它不仅记录了投诉的具体内容，还包含了消费者的同意状态、提交方式等元数据，为分析消费者行为和公司响应模式提供了重要基础。该数据集的问世，对于提升消费者服务质量和构建智能投诉处理系统产生了深远的影响。

当前挑战

尽管该数据集提供了丰富的信息，但在研究领域中仍面临诸多挑战。首先，数据集的多样性和复杂性要求研究者在分析和建模时必须采用高级的自然语言处理技术。其次，构建过程中，如何确保个人隐私不被泄露，同时保留数据的实用性，是一个重大挑战。此外，由于数据涉及多个维度，如产品、子产品、问题类型等，如何有效地整合和利用这些信息，构建出既准确又高效的投诉处理模型，也是当前研究的一大难点。

常用场景

经典使用场景

在自然语言处理与消费者行为分析领域，aciborowska/customers-complaints-train-eval数据集被广泛用于训练机器学习模型，以识别和分类消费者投诉的主要内容与情绪。其详尽的字段涵盖了投诉的各个方面，使得研究者在构建分类器、情感分析工具或话题聚类算法时，能够获得深入的理解和准确的标注。

衍生相关工作

基于此数据集，学术界衍生出了众多经典工作，包括但不限于消费者情绪识别、投诉意图预测、话题建模等研究。这些工作不仅推动了自然语言处理技术的发展，也为消费者行为分析领域带来了新的研究视角与方法论。

数据集最近研究