tifosiai/butabytes-v2.0
收藏Hugging Face2025-09-08 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/tifosiai/butabytes-v2.0
下载链接
链接失效反馈官方服务:
资源简介:
ButaBytes 2.0是一个为阿塞拜疆语设计的大型NLP语料库,包含超过4300万条句子。数据集来源于300万个不同的来源,涵盖了政治、经济、科学、文化、体育、历史和社会等多个领域的文本。语料库包括当代和历史文本,来源包括报纸、杂志、学术期刊、维基百科文章和书籍。数据集的结构分为四个主要部分:句子、维基百科、新闻和书籍,每个部分都有详细的实例数量和大小。数据集的构建方法包括从广泛的阿塞拜疆内容中抓取数据,并针对每种内容类型实施专门的清理技术。
ButaBytes 2.0是一个为阿塞拜疆语设计的大型NLP语料库,包含超过4300万条句子。数据集来源于300万个不同的来源,涵盖了政治、经济、科学、文化、体育、历史和社会等多个领域的文本。语料库包括当代和历史文本,来源包括报纸、杂志、学术期刊、维基百科文章和书籍。数据集的结构分为四个主要部分:句子、维基百科、新闻和书籍,每个部分都有详细的实例数量和大小。数据集的构建方法包括从广泛的阿塞拜疆内容中抓取数据,并针对每种内容类型实施专门的清理技术。
提供机构:
tifosiai
原始信息汇总
数据集概述
名称: ButaBytes 2.0
描述: ButaBytes 2.0 是针对阿塞拜疆语言的最大NLP语料库,包含超过4300万条句子。该数据集设计用于广泛的NLP任务,收集自300万个来源,涵盖政治、经济、科学、文化、体育、历史和社会等多个领域。数据来源包括报纸、杂志、学术期刊、维基百科文章和书籍,提供了一个全面的语言和文化资源。
数据集结构
数据分割:
| 来源名称 | 实例数量 | 大小(GB) |
|---|---|---|
| sentences.json | 43,755,942 | 10.1 |
| wikipedia.json | 178,836 | 0.64 |
| news.json | 623,964 | 1.37 |
| books.zip | 434 | 0.12 |
方法论
ButaBytes 2.0 数据集通过抓取广泛的阿塞拜疆内容构建,确保数据集的全面性和多样性。数据来源包括阿塞拜疆新闻网站、公共文档、各种类型的书籍以及丰富的用户生成内容如社交媒体帖子和博客。采用了针对每种内容类型的专业清洗技术,以提高数据的准确性和一致性。
使用说明
用户需手动下载数据集材料至设备。提供了读取JSON文件、转换JSON数据为DataFrame以及解压和读取文本文件的示例代码。
注意事项
- 社会影响: ButaBytes 2.0 对NLP研究社区有显著贡献,支持阿塞拜疆语文本生成工具的开发,促进语言技术的进步和语言文化的保护。
- 偏见和限制: 尽管努力减少数据集中的偏见,但仍存在一些限制。用户在使用模型时应谨慎,特别是关于可能影响模型性能和公平性的固有偏见。
- 数据集作者: ButaBytes 2.0 由Tifosi AI(前称AZNLP)开发,该团队致力于推进人工智能,并承诺进行道德数据采集和负责任的数据管理。



