five

Cleanlab/databricks-dolly-15k-cleanset

收藏
Hugging Face2024-02-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Cleanlab/databricks-dolly-15k-cleanset
下载链接
链接失效反馈
官方服务:
资源简介:
`databricks-dolly-15k-cleanset`是一个用于清理和提高`databricks-dolly-15k`数据集质量的工具,该数据集原本包含15,000个人类注释的指令-响应对。通过使用Cleanlab Studio,此数据集新增了多个数据质量度量列,包括信任度分数、个人识别信息严重性、非正式语言严重性、非英语文本严重性和有害语言严重性。用户可以利用这些分数自动或手动过滤掉低质量的数据点,从而得到一个更干净、更适用于LLM微调的数据集。

`databricks-dolly-15k-cleanset`是一个用于清理和提高`databricks-dolly-15k`数据集质量的工具,该数据集原本包含15,000个人类注释的指令-响应对。通过使用Cleanlab Studio,此数据集新增了多个数据质量度量列,包括信任度分数、个人识别信息严重性、非正式语言严重性、非英语文本严重性和有害语言严重性。用户可以利用这些分数自动或手动过滤掉低质量的数据点,从而得到一个更干净、更适用于LLM微调的数据集。
提供机构:
Cleanlab
原始信息汇总

数据集概述

databricks-dolly-15k-cleanset 是一个用于生成 databricks-dolly-15k 数据集的清洁版本的工具。原始的 databricks-dolly-15k 数据集包含 15,000 个人工标注的指令-响应对,涵盖多种类别。然而,该数据集中存在许多低质量的响应、不完整或模糊的提示以及其他有问题的文本。为了自动检测原始数据集中的低质量数据点,我们使用了 Cleanlab Studio。

新增列

databricks-dolly-15k-cleanset 在原始数据集基础上新增了以下列,这些列是 Cleanlab 提供的各种数据质量指标:

  • TLM_confidence_score: 衡量对给定提示的响应的可信度(包括 aleatoric 和 epistemic 不确定性)。取值范围为 0 到 1,较低的值表示响应不太可能是好的。
  • cleanlab_PII_score: 衡量文本中个人识别信息(PII)的出现频率和严重程度。取值范围为 0 到 1,较高的值表示更严重的程度。
  • cleanlab_informal_score: 衡量文本中非正式语言、俚语或糟糕写作的出现频率和严重程度。取值范围为 0 到 1,较高的值表示更严重的程度。
  • cleanlab_non_english_score: 衡量文本中非英语语言或无意义字符(如 HTML/XML 标签、标识符、哈希、随机字符)的出现频率。取值范围为 0 到 1,较高的值表示更严重的程度。
  • cleanlab_toxic_score: 衡量文本中仇恨言论和有害语言的出现频率和严重程度。取值范围为 0 到 1,较高的值表示更严重的程度。

使用方法

通过新增的列,用户可以过滤掉低质量的数据点,生成更清洁的数据集。用户可以手动审查具有问题分数的数据点并替换为更高质量的指令/响应,或者设定阈值自动剔除不符合要求的数据点。

示例代码

以下是使用 Python 过滤低质量数据点的示例代码:

python import pandas as pd

加载数据集

df = pd.read_csv(databricks-dolly-15k-cleanset.csv)

设定阈值

TLM_confidence_score_threshold = 0.5 PII_score_threshold = 0.4 informal_score_threshold = 0.6 non_english_score_threshold = 0.8 toxic_score_threshold = 0.95

过滤数据点

cleaned_df = df[ (df[TLM_confidence_score] > TLM_confidence_score_threshold) & (df[cleanlab_PII_score] < PII_score_threshold) & (df[cleanlab_informal_score] < informal_score_threshold) & (df[cleanlab_non_english_score] < non_english_score_threshold) & (df[cleanlab_toxic_score] < toxic_score_threshold) ]

删除分数列

columns_to_drop = [TLM_confidence_score, cleanlab_PII_score, cleanlab_informal_score, cleanlab_toxic_score, cleanlab_non_english_score] cleaned_df = cleaned_df.drop(columns=columns_to_drop)

保存清洁后的数据集

cleaned_df.to_csv(databricks-dolly-15k-cleaned.csv, index=False)

清洁版本数据集

我们提供了一个清洁版本的 databricks-dolly-15k 数据集: databricks-dolly-15k-cleaned.csv

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作