five

tifosiai/butabytes-v2.0

收藏
Hugging Face2025-09-08 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/tifosiai/butabytes-v2.0
下载链接
链接失效反馈
官方服务:
资源简介:
ButaBytes 2.0是一个为阿塞拜疆语设计的大型NLP语料库,包含超过4300万条句子。数据集来源于300万个不同的来源,涵盖了政治、经济、科学、文化、体育、历史和社会等多个领域的文本。语料库包括当代和历史文本,来源包括报纸、杂志、学术期刊、维基百科文章和书籍。数据集的结构分为四个主要部分:句子、维基百科、新闻和书籍,每个部分都有详细的实例数量和大小。数据集的构建方法包括从广泛的阿塞拜疆内容中抓取数据,并针对每种内容类型实施专门的清理技术。

ButaBytes 2.0是一个为阿塞拜疆语设计的大型NLP语料库,包含超过4300万条句子。数据集来源于300万个不同的来源,涵盖了政治、经济、科学、文化、体育、历史和社会等多个领域的文本。语料库包括当代和历史文本,来源包括报纸、杂志、学术期刊、维基百科文章和书籍。数据集的结构分为四个主要部分:句子、维基百科、新闻和书籍,每个部分都有详细的实例数量和大小。数据集的构建方法包括从广泛的阿塞拜疆内容中抓取数据,并针对每种内容类型实施专门的清理技术。
提供机构:
tifosiai
原始信息汇总

数据集概述

名称: ButaBytes 2.0

描述: ButaBytes 2.0 是针对阿塞拜疆语言的最大NLP语料库,包含超过4300万条句子。该数据集设计用于广泛的NLP任务,收集自300万个来源,涵盖政治、经济、科学、文化、体育、历史和社会等多个领域。数据来源包括报纸、杂志、学术期刊、维基百科文章和书籍,提供了一个全面的语言和文化资源。

数据集结构

数据分割:

来源名称 实例数量 大小(GB)
sentences.json 43,755,942 10.1
wikipedia.json 178,836 0.64
news.json 623,964 1.37
books.zip 434 0.12

方法论

ButaBytes 2.0 数据集通过抓取广泛的阿塞拜疆内容构建,确保数据集的全面性和多样性。数据来源包括阿塞拜疆新闻网站、公共文档、各种类型的书籍以及丰富的用户生成内容如社交媒体帖子和博客。采用了针对每种内容类型的专业清洗技术,以提高数据的准确性和一致性。

使用说明

用户需手动下载数据集材料至设备。提供了读取JSON文件、转换JSON数据为DataFrame以及解压和读取文本文件的示例代码。

注意事项

  • 社会影响: ButaBytes 2.0 对NLP研究社区有显著贡献,支持阿塞拜疆语文本生成工具的开发,促进语言技术的进步和语言文化的保护。
  • 偏见和限制: 尽管努力减少数据集中的偏见,但仍存在一些限制。用户在使用模型时应谨慎,特别是关于可能影响模型性能和公平性的固有偏见。
  • 数据集作者: ButaBytes 2.0 由Tifosi AI(前称AZNLP)开发,该团队致力于推进人工智能,并承诺进行道德数据采集和负责任的数据管理。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作