ayoubkirouane/Algerian-Darija
收藏Hugging Face2024-07-05 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/ayoubkirouane/Algerian-Darija
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含阿尔及利亚方言(Algerian Darija)的文本数据,这些数据来源于Hugging Face数据集、网络爬取和YouTube转录API。数据集分为训练集和v1集,分别包含超过2k行和170k行的文本数据。数据清理步骤包括删除重复的表情符号和字符、URL、电子邮件地址和电话号码。
This dataset contains text in Algerian Darija, collected from a variety of sources including existing datasets on Hugging Face, web scraping, and YouTube transcript APIs. The dataset is divided into a train split with over 2k rows of uncleaned text data and a v1 split with over 170k rows of split and partially cleaned text. Data cleaning steps included removing duplicate emojis and characters, URLs, email addresses, and phone numbers.
提供机构:
ayoubkirouane
原始信息汇总
Algerian Darija 数据集概述
基本信息
- 语言: 阿拉伯语
- 许可: CC BY 4.0
- 大小: 100K < n < 1M
- 任务类别: 文本生成, 文本到文本生成
- 数据集名称: Algerian Darija
数据集结构
- 特征:
- Text: 字符串类型
- 分割:
- train: 包含2324个样本,大小为30499704字节
- v1: 包含168655个样本,大小为23477688字节
- 下载大小: 44762377字节
- 数据集大小: 53977392字节
配置
- 默认配置:
- train: 数据路径为
data/train-* - v1: 数据路径为
data/v1-*
- train: 数据路径为
数据来源
- Hugging Face 数据集: 相关于 Algerian Darija 的现有数据集
- 网络爬虫: 从各种在线资源获取的内容
- YouTube API: 从 Algerian Darija 视频和 YouTube 评论中获取的转录文本
数据清洗
- 初步清洗步骤:
- 删除重复的表情符号和字符
- 删除URL、电子邮件地址和电话号码
- 注意: YouTube Transcript API 中的部分文本可能存在由于语音转文本技术限制而导致的缺陷。数据集仍需进一步清洗以提高质量,以适应更高级的自然语言处理任务。



