vngrs-ai/vngrs-web-corpus

Name: vngrs-ai/vngrs-web-corpus
Creator: vngrs-ai
Published: 2024-04-01 14:39:39
License: 暂无描述

Hugging Face2024-04-01 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/vngrs-ai/vngrs-web-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

vngrs-web-corpus是一个混合数据集，由OSCAR-2201和mC4的土耳其语部分清理后组成。该数据集最初是为训练VBART创建的，后来用于训练TURNA。数据集包含50.3M页面和25.33B个VBART分词器分词的标记。数据集的结构包括文本内容、来源语料库和原始索引。数据集主要用于预训练语言模型和词表示。由于数据集内容来自开放网络，经过一系列规则和启发式方法清理，但未考虑内容的语义，因此在内容不相关或不适当的情况下应进行标记和移除。数据集仅用于研究目的，未经相关当局同意不得用于其他用途。

提供机构：

vngrs-ai

原始信息汇总

数据集概述

数据集基本信息

名称: vngrs-web-corpus
语言: 土耳其语
许可证: cc-by-nc-sa-4.0
创建目的: 用于训练语言模型和词表示，最初为训练VBART模型而创建，后用于训练TURNA模型。

数据集内容

特征:
- text[字符串]: 数据集的主要文本内容
- corpus[字符串]: 数据来源的语料库
- original_id[整数]: 数据在源语料库中的原始索引
拆分:
- 训练集: 包含50336214个示例，总字节数为141807806497

数据集大小

下载大小: 84893303434字节
数据集大小: 141807806497字节

数据集结构

数据文件路径: data/train-*

数据集使用

主要用途: 预训练语言模型和词表示

数据集风险与限制

内容来源: 网络爬取，经过清洗规则处理，但不考虑内容的语义
使用限制: 仅限于研究用途，其他用途需获得相关授权

引用信息

引用文献: VBART论文
引用格式:

@article{turker2024vbart, title={VBART: The Turkish LLM}, author={Turker, Meliksah and Ari, Erdi and Han, Aydin}, journal={arXiv preprint arXiv:2403.01308}, year={2024} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集