vngrs-ai/vngrs-web-corpus
收藏Hugging Face2024-04-01 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/vngrs-ai/vngrs-web-corpus
下载链接
链接失效反馈官方服务:
资源简介:
vngrs-web-corpus是一个混合数据集,由OSCAR-2201和mC4的土耳其语部分清理后组成。该数据集最初是为训练VBART创建的,后来用于训练TURNA。数据集包含50.3M页面和25.33B个VBART分词器分词的标记。数据集的结构包括文本内容、来源语料库和原始索引。数据集主要用于预训练语言模型和词表示。由于数据集内容来自开放网络,经过一系列规则和启发式方法清理,但未考虑内容的语义,因此在内容不相关或不适当的情况下应进行标记和移除。数据集仅用于研究目的,未经相关当局同意不得用于其他用途。
vngrs-web-corpus是一个混合数据集,由OSCAR-2201和mC4的土耳其语部分清理后组成。该数据集最初是为训练VBART创建的,后来用于训练TURNA。数据集包含50.3M页面和25.33B个VBART分词器分词的标记。数据集的结构包括文本内容、来源语料库和原始索引。数据集主要用于预训练语言模型和词表示。由于数据集内容来自开放网络,经过一系列规则和启发式方法清理,但未考虑内容的语义,因此在内容不相关或不适当的情况下应进行标记和移除。数据集仅用于研究目的,未经相关当局同意不得用于其他用途。
提供机构:
vngrs-ai
原始信息汇总
数据集概述
数据集基本信息
- 名称: vngrs-web-corpus
- 语言: 土耳其语
- 许可证: cc-by-nc-sa-4.0
- 创建目的: 用于训练语言模型和词表示,最初为训练VBART模型而创建,后用于训练TURNA模型。
数据集内容
- 特征:
- text[字符串]: 数据集的主要文本内容
- corpus[字符串]: 数据来源的语料库
- original_id[整数]: 数据在源语料库中的原始索引
- 拆分:
- 训练集: 包含50336214个示例,总字节数为141807806497
数据集大小
- 下载大小: 84893303434字节
- 数据集大小: 141807806497字节
数据集结构
- 数据文件路径:
data/train-*
数据集使用
- 主要用途: 预训练语言模型和词表示
数据集风险与限制
- 内容来源: 网络爬取,经过清洗规则处理,但不考虑内容的语义
- 使用限制: 仅限于研究用途,其他用途需获得相关授权
引用信息
-
引用文献: VBART论文
-
引用格式:
@article{turker2024vbart, title={VBART: The Turkish LLM}, author={Turker, Meliksah and Ari, Erdi and Han, Aydin}, journal={arXiv preprint arXiv:2403.01308}, year={2024} }



