COMPAS Dataset|法律预测数据集|伦理分析数据集
收藏COMPAS-Research 数据集概述
数据集描述
- 数据集名称: COMPAS Dataset
- 研究目标: 构建更公平的机器学习模型,探索技术设计决策中的伦理权衡。
数据处理
- 数据下载与加载: 数据集被下载并加载到pandas DataFrame中。
- 数据清洗:
- 移除不必要的列,如个人标识符、冗余信息和与任务无关的字段。
- 剩余列被重命名以提高清晰度。
- 预处理步骤:
- 过滤掉罕见指控(出现次数少于70次的指控)。
- 对分类变量(如种族、性别、年龄类别)进行独热编码,转换为适合机器学习模型的二进制列。
模型构建与分析
- 模型类型:
- 逻辑回归模型
- 支持向量机(SVM)模型
- 随机森林分类器
- 神经网络模型(多层感知器)
- 模型目标: 预测被告在两年内是否会再次犯罪。
- 数据分割: 数据集被分为训练集(70%)和测试集(30%)。
- 模型评估:
- 评估模型在训练集和测试集上的准确性。
- 通过混淆矩阵分析不同种族群体(非洲裔美国人和高加索人)的模型公平性。
- 计算并比较不同种族群体的假阳性率(FPR)。
- 公平性调整:
- 调整分类阈值以均衡不同种族群体的FPR。
- 重新评估调整后的模型,确保在不同群体间更公平的错误分布。
特征重要性分析
- 计算特征重要性: 分析哪些变量对预测贡献最大。
- 可视化: 使用条形图可视化特征重要性,特别关注与种族相关的特征。
伦理与公平性
- 项目主题: 机器学习中的公平性是核心主题。
- 伦理影响: 强调在敏感应用(如刑事司法系统)中,模型偏见的实际后果。
- 公平性评估: 使用等化FPR等定义评估模型公平性。
总结
- 项目目标: 提供理解和分析机器学习模型偏见的实用指南,平衡性能与公平性。

中国高分辨率高质量PM2.5数据集(2000-2023)
ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。
国家青藏高原科学数据中心 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
ChinaTravel
ChinaTravel是由南京大学国家重点实验室开发的一个真实世界基准数据集,专门用于评估语言代理在中国旅行规划中的应用。该数据集涵盖了中国10个最受欢迎城市的旅行信息,包括720个航班和5770趟列车,以及3413个景点、4655家餐厅和4124家酒店的详细信息。数据集通过问卷调查收集用户需求,并设计了一个可扩展的领域特定语言来支持自动评估。ChinaTravel旨在解决复杂的真实世界旅行规划问题,特别是在多兴趣点行程安排和用户偏好满足方面,为语言代理在旅行规划中的应用提供了重要的测试平台。
arXiv 收录
VisDrone2019
VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。
github 收录
LibriSpeech
LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。
OpenDataLab 收录