florijanqosja/dibratext

Name: florijanqosja/dibratext
Creator: florijanqosja
Published: 2024-04-28 13:46:32
License: 暂无描述

Hugging Face2024-04-28 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/florijanqosja/dibratext

下载链接

链接失效反馈

官方服务：

资源简介：

DibraText是一个聚合数据集，包含从各种来源收集的阿尔巴尼亚语文本。该数据集专为自然语言处理任务设计，如文本分类、情感分析和机器学习模型训练。

提供机构：

florijanqosja

原始信息汇总

DibraText Dataset 概述

基本信息

描述： DibraText 是一个包含阿尔巴尼亚语文本的聚合数据集，用于自然语言处理任务，如文本分类、情感分析和机器学习模型训练。
作者/维护者： Florijan Qosja (florijanqosja@gmail.com)
创建/更新日期： 2024年4月27日
语言： 阿尔巴尼亚语（语言代码：sq）
体积： 100,378,107 唯一值

数据访问

使用 datasets 库加载数据集： python from datasets import load_dataset dataset = load_dataset("florijanqosja/dibratext") train_set = dataset[train] test_set = dataset[test]

数据源

原始来源：
1. CulturaX
2. C4
3. Wikipedia
4. Kosovo News Articles Dataset
5. OSCAR
6. CC100
7. OSCAR-2201
包含标准： 仅包含阿尔巴尼亚语内容的数据集。

数据结构

数据实例： 通常包含阿尔巴尼亚语文本内容。
数据字段：
- text: 阿尔巴尼亚语的主要文本内容。
数据量：
- train: 90340296
- test: 10037811

许可信息

许可详情： 数据集由多个来源组成，每个来源都有其特定的许可协议。

限制与偏见

已知限制： 数据集仅包含阿尔巴尼亚语文本，可能不完全代表所有方言或社会语言。
潜在偏见： 由于数据来源的多样性，个别来源中的偏见可能在此聚合数据集中传播。

引用信息

@misc{dibratext2023, author = {Florijan Qosja}, title = {DibraText: An Aggregated Dataset for Albanian Text Processing}, year = 2023, publisher = {HuggingFace}, journal = {HuggingFace Dataset}, howpublished = {url{https://huggingface.co/datasets/florijanqosja/dibratext}} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集