tifosiai/butabytes-v2.0

Name: tifosiai/butabytes-v2.0
Creator: tifosiai
Published: 2025-09-08 23:30:41
License: 暂无描述

Hugging Face2025-09-08 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/tifosiai/butabytes-v2.0

下载链接

链接失效反馈

官方服务：

资源简介：

ButaBytes 2.0是一个为阿塞拜疆语设计的大型NLP语料库，包含超过4300万条句子。数据集来源于300万个不同的来源，涵盖了政治、经济、科学、文化、体育、历史和社会等多个领域的文本。语料库包括当代和历史文本，来源包括报纸、杂志、学术期刊、维基百科文章和书籍。数据集的结构分为四个主要部分：句子、维基百科、新闻和书籍，每个部分都有详细的实例数量和大小。数据集的构建方法包括从广泛的阿塞拜疆内容中抓取数据，并针对每种内容类型实施专门的清理技术。

提供机构：

tifosiai

原始信息汇总

数据集概述

名称: ButaBytes 2.0

描述: ButaBytes 2.0 是针对阿塞拜疆语言的最大NLP语料库，包含超过4300万条句子。该数据集设计用于广泛的NLP任务，收集自300万个来源，涵盖政治、经济、科学、文化、体育、历史和社会等多个领域。数据来源包括报纸、杂志、学术期刊、维基百科文章和书籍，提供了一个全面的语言和文化资源。

数据集结构

数据分割:

来源名称	实例数量	大小（GB）
sentences.json	43,755,942	10.1
wikipedia.json	178,836	0.64
news.json	623,964	1.37
books.zip	434	0.12

方法论

ButaBytes 2.0 数据集通过抓取广泛的阿塞拜疆内容构建，确保数据集的全面性和多样性。数据来源包括阿塞拜疆新闻网站、公共文档、各种类型的书籍以及丰富的用户生成内容如社交媒体帖子和博客。采用了针对每种内容类型的专业清洗技术，以提高数据的准确性和一致性。

使用说明

用户需手动下载数据集材料至设备。提供了读取JSON文件、转换JSON数据为DataFrame以及解压和读取文本文件的示例代码。

注意事项

社会影响: ButaBytes 2.0 对NLP研究社区有显著贡献，支持阿塞拜疆语文本生成工具的开发，促进语言技术的进步和语言文化的保护。
偏见和限制: 尽管努力减少数据集中的偏见，但仍存在一些限制。用户在使用模型时应谨慎，特别是关于可能影响模型性能和公平性的固有偏见。
数据集作者: ButaBytes 2.0 由Tifosi AI（前称AZNLP）开发，该团队致力于推进人工智能，并承诺进行道德数据采集和负责任的数据管理。

5,000+

优质数据集

54 个

任务类型

进入经典数据集