five

CFPB/consumer-finance-complaints|消费者金融投诉数据集|文本分类数据集

收藏
hugging_face2024-07-16 更新2024-06-15 收录
消费者金融投诉
文本分类
下载链接:
https://hf-mirror.com/datasets/CFPB/consumer-finance-complaints
下载链接
链接失效反馈
资源简介:
该数据集名为consumer-finance-complaints,主要包含消费者对金融产品和服务的投诉信息。数据集由消费者金融保护局(CFPB)维护,数据来源于消费者提交的投诉。数据集的主要任务包括文本分类,特别是对投诉相关的产品、子产品和标签进行分类。数据集为单语言(英语),包含超过100万条记录,数据字段包括投诉日期、产品类型、子产品类型、问题描述、消费者投诉文本、公司回应等。数据集的结构包括一个训练集,可以进一步划分为训练、测试和验证子集。
提供机构:
CFPB
原始信息汇总

数据集卡片 - 消费者金融投诉

数据集描述

数据集概述

该数据库是关于消费者金融产品和服务的投诉集合,由消费者金融保护局(CFPB)发送给公司以获取回应。

支持的任务和排行榜

文本分类任务:

  • 产品分类:预测投诉相关的产品。
  • 子产品分类:预测投诉相关的子产品。
  • 标签分类:预测投诉是否由老年人或军人提出。

语言

英语

数据集结构

数据实例

数据集是一个时间点的数据库提取,数据库每天都在增长。

训练集示例: json { "Complaint ID": "4511031", "Product": "Credit reporting, credit repair services, or other personal consumer reports", "Sub Issue": "Credit inquiries on your report that you dont recognize", "Consumer Disputed": "N/A", "Sub Product": "Credit reporting", "State": "TX", "Tags": "Older American, Servicemember", "Company Public Response": "", "Zip Code": "75202", "Issue": "Improper use of your report", "Submitted via": "Web", "Company Response To Consumer": "Closed with explanation", "Complaint Text": "I am XXXX XXXX and I am submitting this complaint myself and there is no third party involved. Despite the multiple previous written requests, the unverified inquiries listed below still remain on my credit report in violation of Federal Law. The Equifax Credit Bureau failed to comply with Fair Credit Reporting Act, XXXX XXXX sections XXXX within the time set forth by law and continued reporting of erroneous information which now, given all my attempts to address it directly with the creditor, as willful negligence and non-compliance with federal statutes. PLEASE REMOVE THE FOLLOWING INQUIRIES COMPLETELY FROM MY CREDIT REPORT : XXXX CARD-Date of inquiry XX/XX/XXXX XXXX CARD-Date of inquiry XX/XX/XXXX", "Date Received": "07-02-2021", "Company": "EQUIFAX, INC.", "Consumer Consent Provided": "Consent not provided", "Timely Response": "Yes", "Date Sent To Company": "2021-07-02" }

数据字段

字段名称 描述 数据类型
Date received 投诉接收日期 日期时间
Product 消费者在投诉中识别的产品类型 文本
Sub-product 消费者在投诉中识别的子产品类型 文本
Issue 消费者在投诉中识别的问题 文本
Sub-issue 消费者在投诉中识别的子问题 文本
Consumer complaint narrative 消费者提交的投诉描述 文本
Company public response 公司对投诉的公开回应 文本
Company 投诉涉及的公司 文本
State 消费者提供的邮寄地址所在州 文本
ZIP code 消费者提供的邮寄ZIP码 文本
Tags 支持更方便搜索和排序的标签 文本
Consumer consent provided? 消费者是否同意发布其投诉描述 文本
Submitted via 投诉提交方式 文本
Date sent to company 投诉发送给公司的日期 日期时间
Company response to consumer 公司对消费者的回应 文本
Timely response? 公司是否及时回应 是/否
Consumer disputed? 消费者是否对公司回应提出争议 是/否/N/A
Complaint ID 投诉的唯一识别号码 数字

数据分割

数据集仅包含一个训练集,可以使用datasets库进一步分割为训练集、测试集和验证集。

数据集创建

策划理由

开放源代码的客户投诉数据。

源数据

初始数据收集和规范化

该数据库由消费者金融保护局(CFPB)维护。

源语言生产者

英语

注释

注释过程

用户提交给CFPB。

注释者

N/A

个人和敏感信息

所有个人身份信息(PII)已被匿名化。

使用数据集的注意事项

数据集的社会影响

N/A

偏见讨论

该数据库不是消费者在市场体验的统计样本。投诉不一定代表所有消费者的体验,并且投诉不构成“信息”以用于信息质量法案的目的。

其他已知限制

N/A

附加信息

数据集策展人

https://cfpb.github.io/api/ccdb/

许可信息

Creative Commons Zero v1.0 Universal

引用信息

N/A

贡献

感谢@kayvane1添加此数据集,以及消费者金融保护局发布此数据集。

用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。

arXiv 收录

中国知识产权局专利数据库

该数据集包含了中国知识产权局发布的专利信息,涵盖了专利的申请、授权、转让等详细记录。数据内容包括专利号、申请人、发明人、申请日期、授权日期、专利摘要等。

www.cnipa.gov.cn 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

ChinaTravel

ChinaTravel是由南京大学国家重点实验室开发的一个真实世界基准数据集,专门用于评估语言代理在中国旅行规划中的应用。该数据集涵盖了中国10个最受欢迎城市的旅行信息,包括720个航班和5770趟列车,以及3413个景点、4655家餐厅和4124家酒店的详细信息。数据集通过问卷调查收集用户需求,并设计了一个可扩展的领域特定语言来支持自动评估。ChinaTravel旨在解决复杂的真实世界旅行规划问题,特别是在多兴趣点行程安排和用户偏好满足方面,为语言代理在旅行规划中的应用提供了重要的测试平台。

arXiv 收录