five

MuhammadHelmy/nafsy

收藏
Hugging Face2024-02-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MuhammadHelmy/nafsy
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个阿拉伯语的心理健康文章集合,最初从Nafsy.net网站抓取。数据集包含1884个样本,每个样本有四个特征:content(文章内容)、text_size(文章长度)、topic(文章主题的前10个关键词)、prob(主题预测的准确度)。数据集经过预处理,包括数据清洗、主题建模和去重,目的是为了开发一个阿拉伯语的心理健康支持聊天机器人。

该数据集是一个阿拉伯语的心理健康文章集合,最初从Nafsy.net网站抓取。数据集包含1884个样本,每个样本有四个特征:content(文章内容)、text_size(文章长度)、topic(文章主题的前10个关键词)、prob(主题预测的准确度)。数据集经过预处理,包括数据清洗、主题建模和去重,目的是为了开发一个阿拉伯语的心理健康支持聊天机器人。
提供机构:
MuhammadHelmy
原始信息汇总

数据集卡片 for nafsy

数据集概述

这个阿拉伯语数据集是一组心理健康文章。原始数据集是从 Nafsy.net 抓取的。

数据集详情

语言(NLP): 阿拉伯语

用途

直接用途

  • 无监督微调
  • RAG(Retrieval-Augmented Generation)

数据集结构

数据集字段:

  • content: 文章
  • text_size: 文章长度
  • topic: 描述文章主题的前10个单词
  • prob: 主题预测准确性

数据集创建

创建动机

创建一个用于心理健康支持的阿拉伯语聊天机器人。

源数据

数据收集和处理

  • 该数据集最初从 Nafsy.net 抓取,然后上传到 Kaggle。
  • 由本仓库所有者进行的额外预处理:
    • 清理数据:删除网址、多余空格和非单词,分离标点符号,并删除重复项
    • 应用主题建模以使用 bert-base-arabic 模型为每篇文章生成主要主题
    • 使用 sentence-transformers(paraphrase-multilingual-MiniLM-L12-v2)去重数据

源数据生产者

husamal

引用 [可选]

BibTeX:

@misc{Husamal_2021, title={Arabic-physcology-dataset}, url={https://www.kaggle.com/datasets/husamal/arabicphyscologydataset?select=nafsy.csv}, journal={Kaggle}, author={Husamal}, year={2021}, month={May}}

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作