five

vngrs-ai/vngrs-web-corpus

收藏
Hugging Face2024-04-01 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/vngrs-ai/vngrs-web-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
vngrs-web-corpus是一个混合数据集,由OSCAR-2201和mC4的土耳其语部分清理后组成。该数据集最初是为训练VBART创建的,后来用于训练TURNA。数据集包含50.3M页面和25.33B个VBART分词器分词的标记。数据集的结构包括文本内容、来源语料库和原始索引。数据集主要用于预训练语言模型和词表示。由于数据集内容来自开放网络,经过一系列规则和启发式方法清理,但未考虑内容的语义,因此在内容不相关或不适当的情况下应进行标记和移除。数据集仅用于研究目的,未经相关当局同意不得用于其他用途。

vngrs-web-corpus是一个混合数据集,由OSCAR-2201和mC4的土耳其语部分清理后组成。该数据集最初是为训练VBART创建的,后来用于训练TURNA。数据集包含50.3M页面和25.33B个VBART分词器分词的标记。数据集的结构包括文本内容、来源语料库和原始索引。数据集主要用于预训练语言模型和词表示。由于数据集内容来自开放网络,经过一系列规则和启发式方法清理,但未考虑内容的语义,因此在内容不相关或不适当的情况下应进行标记和移除。数据集仅用于研究目的,未经相关当局同意不得用于其他用途。
提供机构:
vngrs-ai
原始信息汇总

数据集概述

数据集基本信息

  • 名称: vngrs-web-corpus
  • 语言: 土耳其语
  • 许可证: cc-by-nc-sa-4.0
  • 创建目的: 用于训练语言模型和词表示,最初为训练VBART模型而创建,后用于训练TURNA模型。

数据集内容

  • 特征:
    • text[字符串]: 数据集的主要文本内容
    • corpus[字符串]: 数据来源的语料库
    • original_id[整数]: 数据在源语料库中的原始索引
  • 拆分:
    • 训练集: 包含50336214个示例,总字节数为141807806497

数据集大小

  • 下载大小: 84893303434字节
  • 数据集大小: 141807806497字节

数据集结构

  • 数据文件路径: data/train-*

数据集使用

  • 主要用途: 预训练语言模型和词表示

数据集风险与限制

  • 内容来源: 网络爬取,经过清洗规则处理,但不考虑内容的语义
  • 使用限制: 仅限于研究用途,其他用途需获得相关授权

引用信息

  • 引用文献: VBART论文

  • 引用格式:

    @article{turker2024vbart, title={VBART: The Turkish LLM}, author={Turker, Meliksah and Ari, Erdi and Han, Aydin}, journal={arXiv preprint arXiv:2403.01308}, year={2024} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作