five

kz-transformers/multidomain-kazakh-dataset

收藏
Hugging Face2025-01-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kz-transformers/multidomain-kazakh-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
MDBKD | 多领域双语哈萨克数据集是一个哈萨克语数据集,包含来自多个领域的超过24,883,808个独特文本。数据集支持文本生成和填充掩码任务,数据来源于维基百科文章、书籍、新闻和CommonCrawl等多个领域。数据集未匿名化,可能包含个人姓名,但不包含原作者信息。数据集的社会影响在于为哈萨克语的进一步研究和商业用途组织开源数据集。

许可证: - Apache-2.0 标注创建者: - 无标注 语言数据生成方式: - 现有资源爬取 使用语言: - kk(哈萨克语) - ru(俄语) 多语言属性: - 多语言 源数据集: - 原始数据集 任务类别: - 文本生成 - 掩码填充 数据集友好名称:MDBKD | 多领域双语哈萨克语数据集 # 数据集说明 **联系人:** [Sanzhar Murzakhmetov](mailto:sanzharmrz@gmail.com), [Besultan Sagyndyk](mailto:nuxyjlbka@gmail.com) ### 数据集摘要 MDBKD | 多领域双语哈萨克语数据集是一款哈萨克语数据集,包含来自多个领域的逾24883808条独特文本。 ### 支持任务 - '掩码语言建模(Masked Language Model, MLM)/自回归语言建模(Causal Language Model, CLM)':可用于训练面向自回归语言建模与掩码语言建模的模型 ### 使用语言 本文使用的语言代码`kk`代表哈萨克斯坦通用口语哈萨克语。 ### 数据实例 每个数据实例包含一条文本字符串与一条ID字符串。 python {'text': 'Алматыда баспана қымбаттап жатыр Қазақстанда пәтер бағасы түсті Жыл басынан бері баспана бағасы 6,2%-ға қымбаттады Мегополистегі пәтер бағасына шолу. Алматыда пандемия басталғалы баспана қымбаттап барады. Мұның себебі нарықтағы сұраныстың көбеюімен және теңгенің құнсыздануымен байланысты, деп хабарлайды Atameken Business. Арна тілшісі Жания Әбдібек нарық өкілдерімен сұхбаттасып, мегополистегі пәтер бағасына шолу жасады. Толығырақ: Мамыр айында Қазақстанның жеті ірі қаласында пәтер бағасы түскен. Орта есеппен республика бойынша тұрғын үйдің 1 шаршы метрінің бағасы 292 мың 886 теңгені құрайды. '}, 'predicted_language': 'kaz', 'contains_kaz_symbols': 1, 'id': '0752b3ce-f5ea-4330-9c5f-e4fecf783b00'} ### 数据字段 - `text`:包含文本正文内容的字符串 - `predicted_language`:包含文本语言预测标签的字符串 - `contains_kaz_symbols`:用于标记文本中是否包含哈萨克语字符的整数字段 - `id`:用于标识拆分内文本的十六进制哈希值字符串 ### 数据拆分 MDBKD包含5个数据集拆分:[_cc100单语爬取数据_](https://data.statmt.org/cc-100/)、_哈萨克语书籍_、[_莱比锡语料库_](https://wortschatz.uni-leipzig.de/en/download/Kazakh)、[_OSCAR语料库_](https://oscar-project.github.io/documentation/versions/oscar-2301/)与_哈萨克语新闻_。以下为各数据集拆分的统计信息: | 数据集拆分 | 领域 | 拆分内文本数量 | 拆分内总Token数 | 拆分内唯一Token数 | 单文本Token数中位数 | | -------------------------------|----------------------|------------------------------| --------------------------|----------------------------------|---------------------------------| | cc100-monolingual-crawled-data | 维基百科文章 | 19 635 580 | 441 623 321 | 6 217 337 | 12 | | kazakhBooks | 书籍 | 8 423 | 351 433 586 | 7 245 720 | 40 264 | | leipzig | 文章/新闻 | 1 706 485 | 26 494 864 | 1 109 113 | 14 | | oscar | CommonCrawl数据 | 269 047 | 230 314 378 | 3 863 498 | 431 | | kazakhNews | 新闻 | 3 264 273 | 1 041 698 037 | 5 820 543 | 209 | 整体统计信息如下: | 统计项 | 数值 | |-------------------------|--------------| | 总文本数量 | 24 883 808 | | 总Token数量 |2 091 564 186 | | 唯一Token总数量 | 17 802 998 | 完整数据集大小为**25GB**。 ### 标注信息 本数据集未包含任何额外标注。 ### 个人与敏感信息 本数据集未进行匿名化处理,因此数据中可能出现个人姓名。数据集未包含原作者相关信息。 ### 数据集的社会影响 本数据集旨在整理开源哈萨克语数据集,以供后续研究与商业用途。 ### 许可信息 1.0.0版本的多领域双语哈萨克语数据集采用[Apache-2.0许可证](http://www.apache.org/licenses/LICENSE-2.0)发布。 ### 贡献致谢 感谢[@KindYAK](https://github.com/KindYAK)、[@BeksultanSagyndyk](https://github.com/BeksultanSagyndyk)与[@SanzharMrz](https://github.com/SanzharMrz)为本数据集的添加工作。 --- ## 引用 若您使用本数据集,请引用如下文献: @misc{horde_mdbkd_kk2024, author = {Beksultan Sagyndyk, Sanzhar Murzakhmetov, Kirill Yakunin}, title = {MDBKD: Multi-Domain Bilingual Kazakh Dataset}, year = {2024}, url = {https://huggingface.co/datasets/multidomain-kazakh-dataset}, note = {Available on Hugging Face} }
提供机构:
kz-transformers
原始信息汇总

数据集概述

数据集名称: MDBKD | Multi-Domain Bilingual Kazakh Dataset

数据集描述: 这是一个包含超过24,883,808个独特文本的哈萨克语数据集,涵盖多个领域。

支持的任务:

  • MLM/CLM: 用于训练模型进行随意和掩码语言建模

语言:

  • 哈萨克语(kk)
  • 俄语(ru)

数据实例结构:

  • text: 文本内容
  • predicted_language: 文本预测语言标签
  • contains_kaz_symbols: 文本中是否包含哈萨克符号的标志
  • id: 文本的十六进制哈希值

数据分割:

  • 数据集分为五个部分:cc100-monolingual-crawled-data, kazakhBooks, leipzig, oscar, kazakhNews

数据集统计:

  • 文本总数:24,883,808
  • 总令牌数:2,091,564,186
  • 独特令牌数:17,802,998
  • 数据集大小:25GB

许可证:

  • Apache-2.0 License

联系人:

  • Sanzhar Murzakhmetov (sanzharmrz@gmail.com)
  • Besultan Sagyndyk (nuxyjlbka@gmail.com)

数据集影响:

  • 旨在组织哈萨克语的开源数据集,以支持进一步的研究和商业用途。

注意事项:

  • 数据集未匿名化,可能包含个人姓名。
  • 不包含原作者信息。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作