five

MuhammadHelmy/nafsy-QA

收藏
Hugging Face2024-02-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MuhammadHelmy/nafsy-QA
下载链接
链接失效反馈
官方服务:
资源简介:
nafsy-QA数据集是一个阿拉伯语的心理健康问答数据集,来源于Nafsy.net的文章和博客。数据集包含两个特征:prompt(问题)和response(回答),并分为训练集和测试集。数据集的主要用途是用于监督微调,特别是用于创建阿拉伯语的心理健康支持聊天机器人。数据集的创建过程包括使用GPT-3.5-Turbo从原始文本中提取问题和回答对。数据集的来源是Nafsy.net,最初由husamal在Kaggle上发布。

The nafsy-QA dataset is an Arabic mental health question-answering dataset sourced from articles and blog posts on Nafsy.net. It includes two core features: prompt (question) and response (answer), and is split into training and test sets. Its primary application is supervised fine-tuning, particularly for developing Arabic mental health support chatbots. The dataset was constructed by extracting question-answer pairs from the original texts using GPT-3.5-Turbo. It originates from Nafsy.net and was initially published on Kaggle by husamal.
提供机构:
MuhammadHelmy
原始信息汇总

数据集概述

数据集信息

特征

  • prompt: 字符串类型
  • response: 字符串类型

分割

  • train:
    • 字节数: 125662
    • 样本数: 232
  • test:
    • 字节数: 24774
    • 样本数: 44

大小

  • 下载大小: 81984 字节
  • 数据集大小: 150436 字节

配置

  • default:
    • 训练数据路径: data/train-*
    • 测试数据路径: data/test-*

任务类别

  • 问答
  • 文本生成

语言

  • 阿拉伯语

标签

  • 心理健康
  • 心理学

规模类别

  • 样本数小于1K

数据集详情

语言

  • 阿拉伯语

用途

  • 监督微调

数据集创建

  • 使用GPT-3.5-Turbo从原始纯文本中提取问答对

数据来源

  • 数据最初从Nafsy.net抓取,然后上传到Kaggle
  • 问答提取在预处理数据上进行,参考MuhammadHelmy/nafsy

数据源生产者

引用

  • BibTeX: bibtex @misc{Husamal_2021, title={Arabic-physcology-dataset}, url={https://www.kaggle.com/datasets/husamal/arabicphyscologydataset?select=nafsy.csv}, journal={Kaggle}, author={Husamal}, year={2021}, month={May} }
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作