five

CFPB/consumer-finance-complaints

收藏
Hugging Face2024-07-16 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/CFPB/consumer-finance-complaints
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为consumer-finance-complaints,主要包含消费者对金融产品和服务的投诉信息。数据集由消费者金融保护局(CFPB)维护,数据来源于消费者提交的投诉。数据集的主要任务包括文本分类,特别是对投诉相关的产品、子产品和标签进行分类。数据集为单语言(英语),包含超过100万条记录,数据字段包括投诉日期、产品类型、子产品类型、问题描述、消费者投诉文本、公司回应等。数据集的结构包括一个训练集,可以进一步划分为训练、测试和验证子集。

The dataset named consumer-finance-complaints primarily contains consumer complaint information related to financial products and services. It is maintained by the Consumer Financial Protection Bureau (CFPB), with its data sourced from complaints submitted by consumers. The core tasks of this dataset cover text classification, particularly for classifying the products, sub-products and issue tags associated with the complaints. This is a monolingual (English) dataset containing over one million records. Its data fields include complaint date, product type, sub-product type, issue description, consumer complaint text, company response, and more. The dataset structure consists of a training set, which can be further split into training, test and validation subsets.
提供机构:
CFPB
原始信息汇总

数据集卡片 - 消费者金融投诉

数据集描述

数据集概述

该数据库是关于消费者金融产品和服务的投诉集合,由消费者金融保护局(CFPB)发送给公司以获取回应。

支持的任务和排行榜

文本分类任务:

  • 产品分类:预测投诉相关的产品。
  • 子产品分类:预测投诉相关的子产品。
  • 标签分类:预测投诉是否由老年人或军人提出。

语言

英语

数据集结构

数据实例

数据集是一个时间点的数据库提取,数据库每天都在增长。

训练集示例: json { "Complaint ID": "4511031", "Product": "Credit reporting, credit repair services, or other personal consumer reports", "Sub Issue": "Credit inquiries on your report that you dont recognize", "Consumer Disputed": "N/A", "Sub Product": "Credit reporting", "State": "TX", "Tags": "Older American, Servicemember", "Company Public Response": "", "Zip Code": "75202", "Issue": "Improper use of your report", "Submitted via": "Web", "Company Response To Consumer": "Closed with explanation", "Complaint Text": "I am XXXX XXXX and I am submitting this complaint myself and there is no third party involved. Despite the multiple previous written requests, the unverified inquiries listed below still remain on my credit report in violation of Federal Law. The Equifax Credit Bureau failed to comply with Fair Credit Reporting Act, XXXX XXXX sections XXXX within the time set forth by law and continued reporting of erroneous information which now, given all my attempts to address it directly with the creditor, as willful negligence and non-compliance with federal statutes. PLEASE REMOVE THE FOLLOWING INQUIRIES COMPLETELY FROM MY CREDIT REPORT : XXXX CARD-Date of inquiry XX/XX/XXXX XXXX CARD-Date of inquiry XX/XX/XXXX", "Date Received": "07-02-2021", "Company": "EQUIFAX, INC.", "Consumer Consent Provided": "Consent not provided", "Timely Response": "Yes", "Date Sent To Company": "2021-07-02" }

数据字段

字段名称 描述 数据类型
Date received 投诉接收日期 日期时间
Product 消费者在投诉中识别的产品类型 文本
Sub-product 消费者在投诉中识别的子产品类型 文本
Issue 消费者在投诉中识别的问题 文本
Sub-issue 消费者在投诉中识别的子问题 文本
Consumer complaint narrative 消费者提交的投诉描述 文本
Company public response 公司对投诉的公开回应 文本
Company 投诉涉及的公司 文本
State 消费者提供的邮寄地址所在州 文本
ZIP code 消费者提供的邮寄ZIP码 文本
Tags 支持更方便搜索和排序的标签 文本
Consumer consent provided? 消费者是否同意发布其投诉描述 文本
Submitted via 投诉提交方式 文本
Date sent to company 投诉发送给公司的日期 日期时间
Company response to consumer 公司对消费者的回应 文本
Timely response? 公司是否及时回应 是/否
Consumer disputed? 消费者是否对公司回应提出争议 是/否/N/A
Complaint ID 投诉的唯一识别号码 数字

数据分割

数据集仅包含一个训练集,可以使用datasets库进一步分割为训练集、测试集和验证集。

数据集创建

策划理由

开放源代码的客户投诉数据。

源数据

初始数据收集和规范化

该数据库由消费者金融保护局(CFPB)维护。

源语言生产者

英语

注释

注释过程

用户提交给CFPB。

注释者

N/A

个人和敏感信息

所有个人身份信息(PII)已被匿名化。

使用数据集的注意事项

数据集的社会影响

N/A

偏见讨论

该数据库不是消费者在市场体验的统计样本。投诉不一定代表所有消费者的体验,并且投诉不构成“信息”以用于信息质量法案的目的。

其他已知限制

N/A

附加信息

数据集策展人

https://cfpb.github.io/api/ccdb/

许可信息

Creative Commons Zero v1.0 Universal

引用信息

N/A

贡献

感谢@kayvane1添加此数据集,以及消费者金融保护局发布此数据集。

搜集汇总
数据集介绍
main_image_url
构建方式
在金融监管领域,消费者投诉数据是洞察市场问题的重要窗口。CFPB/consumer-finance-complaints数据集的构建依托于美国消费者金融保护局的官方投诉数据库,通过公开渠道持续收集消费者对金融产品和服务的投诉信息。数据采集过程遵循严格的隐私保护准则,在发布前对个人身份信息进行脱敏处理,并仅在消费者明确同意后公开投诉叙述文本。该数据集以动态更新的方式维护,每日新增投诉记录,确保了数据的时效性和连续性,为研究者提供了反映真实市场状况的宝贵资源。
特点
该数据集以其规模宏大和结构精细而著称,涵盖了超过300万条投诉记录,涉及信贷报告、抵押贷款、信用卡等17个主要产品类别及76个子产品类别。每条记录包含投诉文本、产品分类、公司回应、消费者争议状态等多维度字段,并标注了投诉者是否为老年人或军人等社会群体标签。数据以纯英文呈现,具有高度的结构化和标准化特征,便于进行文本分类、情感分析或趋势预测等自然语言处理任务,为金融行为研究和监管政策分析提供了丰富的信息层次。
使用方法
研究者可通过HuggingFace平台直接加载该数据集,利用其预定义的训练分割进行模型开发。典型应用包括基于投诉文本的产品类别自动分类、子产品预测或社会群体标签识别。在使用时需注意数据非随机样本的本质,避免将投诉频率直接等同于市场问题发生率,建议结合公司规模等外部数据进行校正分析。数据遵循CC0许可,允许自由使用与分发,但应审慎对待叙事文本中的未经证实主张,保持学术分析的客观中立立场。
背景与挑战
背景概述
消费者金融投诉数据集(CFPB/consumer-finance-complaints)由美国消费者金融保护局(CFPB)于2011年创立,旨在系统收集与分析公众对金融产品及服务的投诉信息。该数据集作为监管机构与学术界的重要资源,聚焦于金融消费领域的权益保护与市场行为监测,通过众包方式整合了数百万条结构化投诉记录,涵盖信贷报告、抵押贷款、信用卡等多个金融子类。其核心研究问题在于利用自然语言处理技术对投诉文本进行自动分类与趋势分析,以揭示金融市场中的潜在风险与消费者痛点,从而为政策制定与行业监管提供数据驱动的决策支持,对金融科技与消费者行为研究产生了深远影响。
当前挑战
该数据集面临的挑战主要体现在两方面:在领域问题层面,金融投诉文本具有高度的语义复杂性与领域特异性,涉及专业术语、模糊表述及情感倾向,使得自动分类模型在区分细粒度产品类别(如“次级抵押贷款”与“传统住房抵押贷款”)时易受噪声干扰;同时,投诉内容常包含不平衡的类别分布与主观性叙述,增加了模型泛化与公平性评估的难度。在构建过程中,数据采集依赖消费者自主提交,导致样本可能存在选择偏差与代表性不足;此外,为保护隐私而对个人敏感信息的匿名化处理,可能削弱文本的上下文完整性,为语义理解与实体识别带来额外障碍。
常用场景
经典使用场景
在金融科技与自然语言处理交叉领域,CFPB消费者投诉数据集为文本分类任务提供了丰富的实践场景。该数据集的核心应用在于对消费者投诉文本进行产品类别预测,例如将投诉内容自动归类至信用卡、抵押贷款或债务催收等金融产品类别。通过分析投诉文本中的语义特征,研究者能够构建高效的分类模型,实现对海量投诉数据的自动化处理与组织,为金融监管机构提供数据驱动的决策支持。
解决学术问题
该数据集有效解决了金融文本挖掘中的关键学术问题,特别是在细粒度文本分类与领域适应学习方面。它帮助研究者探索如何从非结构化投诉叙述中提取有意义的模式,以识别金融产品与服务中的系统性风险。通过分析投诉内容与产品标签的关联,学术界能够深入理解自然语言在金融监管场景下的表达特性,推动领域特定语言模型的发展,并为公平性、偏见检测等伦理研究提供实证基础。
衍生相关工作
基于该数据集,衍生了一系列经典研究工作,包括基于深度学习的多标签分类模型、投诉情感分析与主题建模。例如,研究者利用BERT等预训练语言模型进行投诉文本的细粒度分类,显著提升了预测准确率。同时,结合时间序列分析投诉趋势的工作,揭示了金融产品问题的周期性变化。这些研究不仅推动了金融NLP领域的进展,也为政策制定提供了量化依据。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作