Cleanlab/databricks-dolly-15k-cleanset
收藏数据集概述
databricks-dolly-15k-cleanset 是一个用于生成 databricks-dolly-15k 数据集的清洁版本的工具。原始的 databricks-dolly-15k 数据集包含 15,000 个人工标注的指令-响应对,涵盖多种类别。然而,该数据集中存在许多低质量的响应、不完整或模糊的提示以及其他有问题的文本。为了自动检测原始数据集中的低质量数据点,我们使用了 Cleanlab Studio。
新增列
databricks-dolly-15k-cleanset 在原始数据集基础上新增了以下列,这些列是 Cleanlab 提供的各种数据质量指标:
TLM_confidence_score: 衡量对给定提示的响应的可信度(包括 aleatoric 和 epistemic 不确定性)。取值范围为 0 到 1,较低的值表示响应不太可能是好的。cleanlab_PII_score: 衡量文本中个人识别信息(PII)的出现频率和严重程度。取值范围为 0 到 1,较高的值表示更严重的程度。cleanlab_informal_score: 衡量文本中非正式语言、俚语或糟糕写作的出现频率和严重程度。取值范围为 0 到 1,较高的值表示更严重的程度。cleanlab_non_english_score: 衡量文本中非英语语言或无意义字符(如 HTML/XML 标签、标识符、哈希、随机字符)的出现频率。取值范围为 0 到 1,较高的值表示更严重的程度。cleanlab_toxic_score: 衡量文本中仇恨言论和有害语言的出现频率和严重程度。取值范围为 0 到 1,较高的值表示更严重的程度。
使用方法
通过新增的列,用户可以过滤掉低质量的数据点,生成更清洁的数据集。用户可以手动审查具有问题分数的数据点并替换为更高质量的指令/响应,或者设定阈值自动剔除不符合要求的数据点。
示例代码
以下是使用 Python 过滤低质量数据点的示例代码:
python import pandas as pd
加载数据集
df = pd.read_csv(databricks-dolly-15k-cleanset.csv)
设定阈值
TLM_confidence_score_threshold = 0.5 PII_score_threshold = 0.4 informal_score_threshold = 0.6 non_english_score_threshold = 0.8 toxic_score_threshold = 0.95
过滤数据点
cleaned_df = df[ (df[TLM_confidence_score] > TLM_confidence_score_threshold) & (df[cleanlab_PII_score] < PII_score_threshold) & (df[cleanlab_informal_score] < informal_score_threshold) & (df[cleanlab_non_english_score] < non_english_score_threshold) & (df[cleanlab_toxic_score] < toxic_score_threshold) ]
删除分数列
columns_to_drop = [TLM_confidence_score, cleanlab_PII_score, cleanlab_informal_score, cleanlab_toxic_score, cleanlab_non_english_score] cleaned_df = cleaned_df.drop(columns=columns_to_drop)
保存清洁后的数据集
cleaned_df.to_csv(databricks-dolly-15k-cleaned.csv, index=False)
清洁版本数据集
我们提供了一个清洁版本的 databricks-dolly-15k 数据集:
databricks-dolly-15k-cleaned.csv



