Cleanlab/databricks-dolly-15k-cleanset

Name: Cleanlab/databricks-dolly-15k-cleanset
Creator: Cleanlab
Published: 2024-02-19 07:28:32
License: 暂无描述

Hugging Face2024-02-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Cleanlab/databricks-dolly-15k-cleanset

下载链接

链接失效反馈

官方服务：

资源简介：

`databricks-dolly-15k-cleanset`是一个用于清理和提高`databricks-dolly-15k`数据集质量的工具，该数据集原本包含15,000个人类注释的指令-响应对。通过使用Cleanlab Studio，此数据集新增了多个数据质量度量列，包括信任度分数、个人识别信息严重性、非正式语言严重性、非英语文本严重性和有害语言严重性。用户可以利用这些分数自动或手动过滤掉低质量的数据点，从而得到一个更干净、更适用于LLM微调的数据集。

提供机构：

Cleanlab

原始信息汇总

数据集概述

databricks-dolly-15k-cleanset 是一个用于生成 databricks-dolly-15k 数据集的清洁版本的工具。原始的 databricks-dolly-15k 数据集包含 15,000 个人工标注的指令-响应对，涵盖多种类别。然而，该数据集中存在许多低质量的响应、不完整或模糊的提示以及其他有问题的文本。为了自动检测原始数据集中的低质量数据点，我们使用了 Cleanlab Studio。

新增列

databricks-dolly-15k-cleanset 在原始数据集基础上新增了以下列，这些列是 Cleanlab 提供的各种数据质量指标：

TLM_confidence_score: 衡量对给定提示的响应的可信度（包括 aleatoric 和 epistemic 不确定性）。取值范围为 0 到 1，较低的值表示响应不太可能是好的。
cleanlab_PII_score: 衡量文本中个人识别信息（PII）的出现频率和严重程度。取值范围为 0 到 1，较高的值表示更严重的程度。
cleanlab_informal_score: 衡量文本中非正式语言、俚语或糟糕写作的出现频率和严重程度。取值范围为 0 到 1，较高的值表示更严重的程度。
cleanlab_non_english_score: 衡量文本中非英语语言或无意义字符（如 HTML/XML 标签、标识符、哈希、随机字符）的出现频率。取值范围为 0 到 1，较高的值表示更严重的程度。
cleanlab_toxic_score: 衡量文本中仇恨言论和有害语言的出现频率和严重程度。取值范围为 0 到 1，较高的值表示更严重的程度。

使用方法

通过新增的列，用户可以过滤掉低质量的数据点，生成更清洁的数据集。用户可以手动审查具有问题分数的数据点并替换为更高质量的指令/响应，或者设定阈值自动剔除不符合要求的数据点。

示例代码

以下是使用 Python 过滤低质量数据点的示例代码：

python import pandas as pd

加载数据集

df = pd.read_csv(databricks-dolly-15k-cleanset.csv)

设定阈值

TLM_confidence_score_threshold = 0.5 PII_score_threshold = 0.4 informal_score_threshold = 0.6 non_english_score_threshold = 0.8 toxic_score_threshold = 0.95

过滤数据点

cleaned_df = df[ (df[TLM_confidence_score] > TLM_confidence_score_threshold) & (df[cleanlab_PII_score] < PII_score_threshold) & (df[cleanlab_informal_score] < informal_score_threshold) & (df[cleanlab_non_english_score] < non_english_score_threshold) & (df[cleanlab_toxic_score] < toxic_score_threshold) ]

删除分数列

columns_to_drop = [TLM_confidence_score, cleanlab_PII_score, cleanlab_informal_score, cleanlab_toxic_score, cleanlab_non_english_score] cleaned_df = cleaned_df.drop(columns=columns_to_drop)

保存清洁后的数据集

cleaned_df.to_csv(databricks-dolly-15k-cleaned.csv, index=False)

清洁版本数据集

我们提供了一个清洁版本的 databricks-dolly-15k 数据集： databricks-dolly-15k-cleaned.csv

5,000+

优质数据集

54 个

任务类型

进入经典数据集