chronbmm/ro-lemma
收藏Hugging Face2024-06-15 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/chronbmm/ro-lemma
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含两个主要特征:sentence和unsandhied,均为字符串类型,可能用于自然语言处理任务,如文本转换或语言模型训练。数据集分为训练集、验证集和测试集,分别包含8043、752和722个例子。
The dataset contains two main features: sentence and unsandhied, both of which are of string type, likely used for natural language processing tasks such as text transformation or language model training. The dataset is divided into training, validation, and test sets, containing 8043, 752, and 722 examples respectively.
提供机构:
chronbmm
原始信息汇总
数据集概述
数据集特征
- sentence: 数据类型为字符串。
- unsandhied: 数据类型为字符串。
数据集分割
- train: 包含8043个样本,占用2213472字节。
- validation: 包含752个样本,占用205046字节。
- test: 包含722个样本,占用193541字节。
数据集大小
- 下载大小: 1626991字节。
- 数据集总大小: 2612059字节。
配置信息
- config_name: default
- train: 数据文件路径为
data/train-*。 - validation: 数据文件路径为
data/validation-*。 - test: 数据文件路径为
data/test-*。
- train: 数据文件路径为



