MuhammadHelmy/nafsy
收藏Hugging Face2024-02-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MuhammadHelmy/nafsy
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个阿拉伯语的心理健康文章集合,最初从Nafsy.net网站抓取。数据集包含1884个样本,每个样本有四个特征:content(文章内容)、text_size(文章长度)、topic(文章主题的前10个关键词)、prob(主题预测的准确度)。数据集经过预处理,包括数据清洗、主题建模和去重,目的是为了开发一个阿拉伯语的心理健康支持聊天机器人。
该数据集是一个阿拉伯语的心理健康文章集合,最初从Nafsy.net网站抓取。数据集包含1884个样本,每个样本有四个特征:content(文章内容)、text_size(文章长度)、topic(文章主题的前10个关键词)、prob(主题预测的准确度)。数据集经过预处理,包括数据清洗、主题建模和去重,目的是为了开发一个阿拉伯语的心理健康支持聊天机器人。
提供机构:
MuhammadHelmy
原始信息汇总
数据集卡片 for nafsy
数据集概述
这个阿拉伯语数据集是一组心理健康文章。原始数据集是从 Nafsy.net 抓取的。
数据集详情
语言(NLP): 阿拉伯语
用途
直接用途
- 无监督微调
- RAG(Retrieval-Augmented Generation)
数据集结构
数据集字段:
- content: 文章
- text_size: 文章长度
- topic: 描述文章主题的前10个单词
- prob: 主题预测准确性
数据集创建
创建动机
创建一个用于心理健康支持的阿拉伯语聊天机器人。
源数据
数据收集和处理
- 该数据集最初从 Nafsy.net 抓取,然后上传到 Kaggle。
- 由本仓库所有者进行的额外预处理:
- 清理数据:删除网址、多余空格和非单词,分离标点符号,并删除重复项
- 应用主题建模以使用 bert-base-arabic 模型为每篇文章生成主要主题
- 使用 sentence-transformers(paraphrase-multilingual-MiniLM-L12-v2)去重数据
源数据生产者
引用 [可选]
BibTeX:
@misc{Husamal_2021, title={Arabic-physcology-dataset}, url={https://www.kaggle.com/datasets/husamal/arabicphyscologydataset?select=nafsy.csv}, journal={Kaggle}, author={Husamal}, year={2021}, month={May}}



