nguyenthanhdo/ultrachat-aem-alpaca-v1.0
收藏数据集概述
数据集信息
- 特征:
id: 字符串类型instruction: 字符串类型input: 字符串类型output: 字符串类型
- 分割:
train:- 字节数: 208601043
- 样本数: 54411
- 下载大小: 126826003 字节
- 数据集大小: 208601043 字节
- 配置:
default:- 数据文件路径:
data/train-*
- 数据文件路径:
数据集描述
- 该数据集是 https://huggingface.co/datasets/stingning/ultrachat 的一个子集。
- 专注于基于现有上下文的问答任务,使用简单的关键词过滤(包含关键词:passage, article, context)。
- 仅提取对话的第一轮,并转换为熟悉的alpaca格式,进一步过滤以仅包含长输入(复杂的指令)。
数据集生成代码
python from datasets import load_dataset ultra = load_dataset( "stingning/ultrachat", data_files=[ "train_6.jsonl", "train_7.jsonl", "train_8.jsonl", "train_9.jsonl" ], split="train" ) def get_first_turn(example): data = example["data"] instruction, output = data[0], data[1] example.pop("data") example["instruction"] = instruction example["input"] = example["output"] = output return example
Assistance on Existing Materials
def aem(example): keywords = ["article", "context", "passage"] data = example["data"] first_instruction = data[0] flag = False if any([kw in first_instruction.lower() for kw in keywords]): flag = True return flag
ultra_aem = ultra.filter(aem) ultra_aem_long = ultra_aem.filter(lambda x: len(x["data"][0].split()) > 200) ultra_aem_first_turn = ultra_aem_long.map(get_first_turn) ultra_aem_first_turn.push_to_hub("nguyenthanhdo/ultrachat-aem-alpaca-v1.0")
数据集使用
- 该数据集原本用于封闭式问答任务,但包含重写、翻译和总结任务的样本。
- 需要进一步过滤以仅保留问答任务的样本,并更好地分离问答、重写、翻译和总结四种任务。



