florijanqosja/dibratext
收藏Hugging Face2024-04-28 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/florijanqosja/dibratext
下载链接
链接失效反馈官方服务:
资源简介:
DibraText是一个聚合数据集,包含从各种来源收集的阿尔巴尼亚语文本。该数据集专为自然语言处理任务设计,如文本分类、情感分析和机器学习模型训练。
提供机构:
florijanqosja
原始信息汇总
DibraText Dataset 概述
基本信息
- 描述: DibraText 是一个包含阿尔巴尼亚语文本的聚合数据集,用于自然语言处理任务,如文本分类、情感分析和机器学习模型训练。
- 作者/维护者: Florijan Qosja (florijanqosja@gmail.com)
- 创建/更新日期: 2024年4月27日
- 语言: 阿尔巴尼亚语(语言代码:sq)
- 体积: 100,378,107 唯一值
数据访问
- 使用
datasets库加载数据集: python from datasets import load_dataset dataset = load_dataset("florijanqosja/dibratext") train_set = dataset[train] test_set = dataset[test]
数据源
- 原始来源:
- CulturaX
- C4
- Wikipedia
- Kosovo News Articles Dataset
- OSCAR
- CC100
- OSCAR-2201
- 包含标准: 仅包含阿尔巴尼亚语内容的数据集。
数据结构
- 数据实例: 通常包含阿尔巴尼亚语文本内容。
- 数据字段:
text: 阿尔巴尼亚语的主要文本内容。
- 数据量:
train: 90340296test: 10037811
许可信息
- 许可详情: 数据集由多个来源组成,每个来源都有其特定的许可协议。
限制与偏见
- 已知限制: 数据集仅包含阿尔巴尼亚语文本,可能不完全代表所有方言或社会语言。
- 潜在偏见: 由于数据来源的多样性,个别来源中的偏见可能在此聚合数据集中传播。
引用信息
@misc{dibratext2023, author = {Florijan Qosja}, title = {DibraText: An Aggregated Dataset for Albanian Text Processing}, year = 2023, publisher = {HuggingFace}, journal = {HuggingFace Dataset}, howpublished = {url{https://huggingface.co/datasets/florijanqosja/dibratext}} }



