nguyenthanhdo/ultrachat-aem-alpaca-v1.0

Name: nguyenthanhdo/ultrachat-aem-alpaca-v1.0
Creator: nguyenthanhdo
Published: 2023-11-09 08:25:20
License: 暂无描述

Hugging Face2023-11-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/nguyenthanhdo/ultrachat-aem-alpaca-v1.0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从stingning/ultrachat数据集中提取的一个子集，专注于基于现有上下文的问答任务。通过关键词过滤（包含passage, article, context的问题）和格式转换（转换为alpaca格式）来进一步处理数据，并确保只包含长输入（即复杂的指令）。数据集的预期用途是用于封闭式问答任务，但当前数据集仍包含其他任务（如重写、翻译和摘要）的样本，因此需要进一步过滤以分离这些任务。

提供机构：

nguyenthanhdo

原始信息汇总

数据集概述

数据集信息

特征:
- id: 字符串类型
- instruction: 字符串类型
- input: 字符串类型
- output: 字符串类型
分割:
- train:
  - 字节数: 208601043
  - 样本数: 54411
下载大小: 126826003 字节
数据集大小: 208601043 字节
配置:
- default:
  - 数据文件路径: data/train-*

数据集描述

该数据集是 https://huggingface.co/datasets/stingning/ultrachat 的一个子集。
专注于基于现有上下文的问答任务，使用简单的关键词过滤（包含关键词：passage, article, context）。
仅提取对话的第一轮，并转换为熟悉的alpaca格式，进一步过滤以仅包含长输入（复杂的指令）。

数据集生成代码

python from datasets import load_dataset ultra = load_dataset( "stingning/ultrachat", data_files=[ "train_6.jsonl", "train_7.jsonl", "train_8.jsonl", "train_9.jsonl" ], split="train" ) def get_first_turn(example): data = example["data"] instruction, output = data[0], data[1] example.pop("data") example["instruction"] = instruction example["input"] = example["output"] = output return example

Assistance on Existing Materials

def aem(example): keywords = ["article", "context", "passage"] data = example["data"] first_instruction = data[0] flag = False if any([kw in first_instruction.lower() for kw in keywords]): flag = True return flag

ultra_aem = ultra.filter(aem) ultra_aem_long = ultra_aem.filter(lambda x: len(x["data"][0].split()) > 200) ultra_aem_first_turn = ultra_aem_long.map(get_first_turn) ultra_aem_first_turn.push_to_hub("nguyenthanhdo/ultrachat-aem-alpaca-v1.0")

数据集使用

该数据集原本用于封闭式问答任务，但包含重写、翻译和总结任务的样本。
需要进一步过滤以仅保留问答任务的样本，并更好地分离问答、重写、翻译和总结四种任务。

5,000+

优质数据集

54 个

任务类型

进入经典数据集