five

florijanqosja/dibratext

收藏
Hugging Face2024-04-28 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/florijanqosja/dibratext
下载链接
链接失效反馈
官方服务:
资源简介:
DibraText是一个聚合数据集,包含从各种来源收集的阿尔巴尼亚语文本。该数据集专为自然语言处理任务设计,如文本分类、情感分析和机器学习模型训练。
提供机构:
florijanqosja
原始信息汇总

DibraText Dataset 概述

基本信息

  • 描述: DibraText 是一个包含阿尔巴尼亚语文本的聚合数据集,用于自然语言处理任务,如文本分类、情感分析和机器学习模型训练。
  • 作者/维护者: Florijan Qosja (florijanqosja@gmail.com)
  • 创建/更新日期: 2024年4月27日
  • 语言: 阿尔巴尼亚语(语言代码:sq)
  • 体积: 100,378,107 唯一值

数据访问

  • 使用 datasets 库加载数据集: python from datasets import load_dataset dataset = load_dataset("florijanqosja/dibratext") train_set = dataset[train] test_set = dataset[test]

数据源

  • 原始来源:
    1. CulturaX
    2. C4
    3. Wikipedia
    4. Kosovo News Articles Dataset
    5. OSCAR
    6. CC100
    7. OSCAR-2201
  • 包含标准: 仅包含阿尔巴尼亚语内容的数据集。

数据结构

  • 数据实例: 通常包含阿尔巴尼亚语文本内容。
  • 数据字段:
    • text: 阿尔巴尼亚语的主要文本内容。
  • 数据量:
    • train: 90340296
    • test: 10037811

许可信息

  • 许可详情: 数据集由多个来源组成,每个来源都有其特定的许可协议。

限制与偏见

  • 已知限制: 数据集仅包含阿尔巴尼亚语文本,可能不完全代表所有方言或社会语言。
  • 潜在偏见: 由于数据来源的多样性,个别来源中的偏见可能在此聚合数据集中传播。

引用信息

@misc{dibratext2023, author = {Florijan Qosja}, title = {DibraText: An Aggregated Dataset for Albanian Text Processing}, year = 2023, publisher = {HuggingFace}, journal = {HuggingFace Dataset}, howpublished = {url{https://huggingface.co/datasets/florijanqosja/dibratext}} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作