five

ayoubkirouane/Algerian-Darija

收藏
Hugging Face2024-07-05 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/ayoubkirouane/Algerian-Darija
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含阿尔及利亚方言(Algerian Darija)的文本数据,这些数据来源于Hugging Face数据集、网络爬取和YouTube转录API。数据集分为训练集和v1集,分别包含超过2k行和170k行的文本数据。数据清理步骤包括删除重复的表情符号和字符、URL、电子邮件地址和电话号码。

This dataset contains text in Algerian Darija, collected from a variety of sources including existing datasets on Hugging Face, web scraping, and YouTube transcript APIs. The dataset is divided into a train split with over 2k rows of uncleaned text data and a v1 split with over 170k rows of split and partially cleaned text. Data cleaning steps included removing duplicate emojis and characters, URLs, email addresses, and phone numbers.
提供机构:
ayoubkirouane
原始信息汇总

Algerian Darija 数据集概述

基本信息

  • 语言: 阿拉伯语
  • 许可: CC BY 4.0
  • 大小: 100K < n < 1M
  • 任务类别: 文本生成, 文本到文本生成
  • 数据集名称: Algerian Darija

数据集结构

  • 特征:
    • Text: 字符串类型
  • 分割:
    • train: 包含2324个样本,大小为30499704字节
    • v1: 包含168655个样本,大小为23477688字节
  • 下载大小: 44762377字节
  • 数据集大小: 53977392字节

配置

  • 默认配置:
    • train: 数据路径为 data/train-*
    • v1: 数据路径为 data/v1-*

数据来源

  • Hugging Face 数据集: 相关于 Algerian Darija 的现有数据集
  • 网络爬虫: 从各种在线资源获取的内容
  • YouTube API: 从 Algerian Darija 视频和 YouTube 评论中获取的转录文本

数据清洗

  • 初步清洗步骤:
    • 删除重复的表情符号和字符
    • 删除URL、电子邮件地址和电话号码
  • 注意: YouTube Transcript API 中的部分文本可能存在由于语音转文本技术限制而导致的缺陷。数据集仍需进一步清洗以提高质量,以适应更高级的自然语言处理任务。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作