five

nguyenthanhdo/ultrachat-aem-alpaca-v1.0

收藏
Hugging Face2023-11-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nguyenthanhdo/ultrachat-aem-alpaca-v1.0
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从stingning/ultrachat数据集中提取的一个子集,专注于基于现有上下文的问答任务。通过关键词过滤(包含passage, article, context的问题)和格式转换(转换为alpaca格式)来进一步处理数据,并确保只包含长输入(即复杂的指令)。数据集的预期用途是用于封闭式问答任务,但当前数据集仍包含其他任务(如重写、翻译和摘要)的样本,因此需要进一步过滤以分离这些任务。

该数据集是从stingning/ultrachat数据集中提取的一个子集,专注于基于现有上下文的问答任务。通过关键词过滤(包含passage, article, context的问题)和格式转换(转换为alpaca格式)来进一步处理数据,并确保只包含长输入(即复杂的指令)。数据集的预期用途是用于封闭式问答任务,但当前数据集仍包含其他任务(如重写、翻译和摘要)的样本,因此需要进一步过滤以分离这些任务。
提供机构:
nguyenthanhdo
原始信息汇总

数据集概述

数据集信息

  • 特征:
    • id: 字符串类型
    • instruction: 字符串类型
    • input: 字符串类型
    • output: 字符串类型
  • 分割:
    • train:
      • 字节数: 208601043
      • 样本数: 54411
  • 下载大小: 126826003 字节
  • 数据集大小: 208601043 字节
  • 配置:
    • default:
      • 数据文件路径: data/train-*

数据集描述

  • 该数据集是 https://huggingface.co/datasets/stingning/ultrachat 的一个子集。
  • 专注于基于现有上下文的问答任务,使用简单的关键词过滤(包含关键词:passage, article, context)。
  • 仅提取对话的第一轮,并转换为熟悉的alpaca格式,进一步过滤以仅包含长输入(复杂的指令)。

数据集生成代码

python from datasets import load_dataset ultra = load_dataset( "stingning/ultrachat", data_files=[ "train_6.jsonl", "train_7.jsonl", "train_8.jsonl", "train_9.jsonl" ], split="train" ) def get_first_turn(example): data = example["data"] instruction, output = data[0], data[1] example.pop("data") example["instruction"] = instruction example["input"] = example["output"] = output return example

Assistance on Existing Materials

def aem(example): keywords = ["article", "context", "passage"] data = example["data"] first_instruction = data[0] flag = False if any([kw in first_instruction.lower() for kw in keywords]): flag = True return flag

ultra_aem = ultra.filter(aem) ultra_aem_long = ultra_aem.filter(lambda x: len(x["data"][0].split()) > 200) ultra_aem_first_turn = ultra_aem_long.map(get_first_turn) ultra_aem_first_turn.push_to_hub("nguyenthanhdo/ultrachat-aem-alpaca-v1.0")

数据集使用

  • 该数据集原本用于封闭式问答任务,但包含重写、翻译和总结任务的样本。
  • 需要进一步过滤以仅保留问答任务的样本,并更好地分离问答、重写、翻译和总结四种任务。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作