aciborowska/customers-complaints-eval
收藏Hugging Face2023-11-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/aciborowska/customers-complaints-eval
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: Date_received
dtype: string
- name: Product
dtype: string
- name: Sub_product
dtype: string
- name: Issue
dtype: string
- name: Sub_issue
dtype: string
- name: Consumer_complaint_narrative
dtype: string
- name: Company_public_response
dtype: string
- name: Company
dtype: string
- name: State
dtype: string
- name: ZIP_code
dtype: string
- name: Tags
dtype: string
- name: Consumer_consent_provided?
dtype: string
- name: Submitted_via
dtype: string
- name: Date_sent_to_company
dtype: string
- name: Company response to consumer
dtype: string
- name: Timely_response?
dtype: string
- name: Consumer_disputed?
dtype: string
- name: Complaint_ID
dtype: int64
splits:
- name: train
num_bytes: 3948222
num_examples: 3000
download_size: 1539746
dataset_size: 3948222
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
# Dataset Card for "customers-complaints-eval"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
数据集信息:
特征字段:
- 名称:收到投诉日期(Date_received),数据类型:字符串
- 名称:涉诉产品(Product),数据类型:字符串
- 名称:子产品类型(Sub_product),数据类型:字符串
- 名称:投诉问题(Issue),数据类型:字符串
- 名称:子问题类型(Sub_issue),数据类型:字符串
- 名称:消费者投诉叙述(Consumer_complaint_narrative),数据类型:字符串
- 名称:公司公开回复(Company_public_response),数据类型:字符串
- 名称:涉事公司(Company),数据类型:字符串
- 名称:所在州(State),数据类型:字符串
- 名称:邮政编码(ZIP_code),数据类型:字符串
- 名称:标签(Tags),数据类型:字符串
- 名称:是否提供消费者同意(Consumer_consent_provided?),数据类型:字符串
- 名称:提交渠道(Submitted_via),数据类型:字符串
- 名称:发送至公司日期(Date_sent_to_company),数据类型:字符串
- 名称:公司对消费者的回复(Company response to consumer),数据类型:字符串
- 名称:是否及时响应(Timely_response?),数据类型:字符串
- 名称:消费者是否提出异议(Consumer_disputed?),数据类型:字符串
- 名称:投诉编号(Complaint_ID),数据类型:64位整数
数据划分:
- 名称:训练集(train),字节数:3948222,样本量:3000
下载大小:1539746
数据集总大小:3948222
配置项:
- 配置名称:默认配置(default),数据文件:
- 数据划分:训练集(train),文件路径:data/train-*
---
# 「customers-complaints-eval」数据集卡片
【需补充更多信息】(https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
aciborowska
原始信息汇总
数据集概述
数据集信息
特征
- Date_received: 字符串类型
- Product: 字符串类型
- Sub_product: 字符串类型
- Issue: 字符串类型
- Sub_issue: 字符串类型
- Consumer_complaint_narrative: 字符串类型
- Company_public_response: 字符串类型
- Company: 字符串类型
- State: 字符串类型
- ZIP_code: 字符串类型
- Tags: 字符串类型
- Consumer_consent_provided?: 字符串类型
- Submitted_via: 字符串类型
- Date_sent_to_company: 字符串类型
- Company response to consumer: 字符串类型
- Timely_response?: 字符串类型
- Consumer_disputed?: 字符串类型
- Complaint_ID: 64位整数类型
数据分割
- train: 包含3000个样本,占用3948222字节
数据集大小
- 下载大小: 1539746字节
- 数据集大小: 3948222字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
搜集汇总
数据集介绍

构建方式
在金融消费者保护领域,数据集的构建需兼顾真实性与规范性。本数据集源自美国消费者金融保护局(CFPB)的公开投诉记录,通过系统化采集与清洗流程,整合了2011年至今的消费者投诉信息。构建过程中,原始数据经过去标识化处理,移除了个人敏感信息,并依据投诉内容的结构化字段进行标准化编码,确保数据符合隐私保护法规。最终形成的训练集包含3000条样本,每条记录涵盖投诉日期、产品类别、问题描述及企业回应等16个特征,为金融文本分析提供了可靠的基础语料。
特点
该数据集在金融文本挖掘领域展现出鲜明的专业特性。其核心特征在于多维度的结构化投诉信息,不仅涵盖消费者叙事文本,还整合了产品分类、企业反馈、地理标签及处理时效等元数据,形成了层次丰富的语义网络。数据字段设计精细,例如将投诉问题细分为主议题与子议题,便于深度主题建模;同时包含消费者争议标识与企业回应类型,为情感分析与合规评估提供了关键维度。这种多模态信息融合的结构,显著提升了数据集在金融风险预警与服务质量研究中的实用价值。
使用方法
针对金融自然语言处理任务,该数据集支持多元化的应用路径。研究者可基于消费者叙事字段开展文本分类实验,训练模型自动识别投诉类型或情感倾向;结合产品与企业字段,能够构建细粒度的服务质量评估体系。在技术实现层面,建议采用分层抽样策略处理类别不平衡问题,并利用子议题与主议题的关联性设计多任务学习框架。对于合规分析场景,可将企业回应字段与时效标识结合,建立投诉处理效能评估模型。数据集兼容主流深度学习框架,支持端到端的金融文本理解流水线构建。
背景与挑战
背景概述
在自然语言处理与消费者权益保护交叉领域,aciborowska/customers-complaints-eval数据集于当代数字治理背景下应运而生。该数据集由独立研究者或机构构建,聚焦于消费者投诉文本的自动化分析与评估,核心研究问题在于如何通过机器学习模型理解非结构化投诉叙事,从而提升企业响应效率与监管机构的风险识别能力。其出现推动了金融、零售等领域的智能客服与合规科技发展,为情感分析、文本分类及实体识别任务提供了珍贵的现实场景语料。
当前挑战
该数据集旨在解决消费者投诉文本的自动分类与情感分析挑战,其难点在于投诉语言的多样性与隐含情绪的微妙表达。构建过程中,面临数据匿名化与隐私保护的伦理约束,需在保留语义完整性的同时脱敏敏感信息;同时,非标准化叙事导致标注一致性难以保障,领域专业术语与口语化表述交织亦增加了特征提取的复杂度。此外,跨行业投诉的异质性要求模型具备较强的领域适应能力。
常用场景
经典使用场景
在消费者保护与金融监管领域,aciborowska/customers-complaints-eval数据集为自然语言处理任务提供了宝贵资源。其经典使用场景集中于文本分类与情感分析,通过消费者投诉叙述的详细记录,支持模型训练以自动识别产品问题、服务缺陷或违规行为。该数据集的结构化特征,如产品类别、投诉问题及公司回应,使得研究者能够构建多标签分类系统,精准映射投诉内容到具体监管框架中,从而提升自动化处理效率与准确性。
实际应用
在实际应用中,aciborowska/customers-complaints-eval数据集被广泛部署于金融科技与客户服务自动化系统。企业可利用其训练模型,实时监控并分类客户反馈,快速识别高频投诉问题,优化产品设计与服务流程。监管机构则借助该数据集开发智能审计工具,自动化筛查潜在违规案例,增强市场监督的时效性与覆盖面,从而提升整体消费者满意度和行业透明度。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作。例如,基于其文本特征开发的深度神经网络模型,实现了投诉主题的自动聚类与趋势预测;结合多任务学习框架的研究,则同步优化了问题分类与响应建议生成。这些工作不仅拓展了自然语言处理在金融监管场景的应用边界,还为构建可解释的AI系统提供了基准数据集,促进了学术界与产业界的协同创新。
以上内容由遇见数据集搜集并总结生成



