matejklemen/falko_merlin
收藏Hugging Face2023-05-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/matejklemen/falko_merlin
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-sa-4.0
dataset_info:
features:
- name: src_tokens
sequence: string
- name: tgt_tokens
sequence: string
- name: corrections
list:
- name: idx_src
sequence: int32
- name: idx_tgt
sequence: int32
- name: corr_type
dtype: string
splits:
- name: train
num_bytes: 6981243
num_examples: 19237
- name: validation
num_bytes: 902510
num_examples: 2503
- name: test
num_bytes: 836757
num_examples: 2337
download_size: 85667586
dataset_size: 8720510
---
许可证:CC BY-SA 4.0
数据集信息:
特征字段:
- 名称:src_tokens
序列类型:字符串(词元(Token)序列)
- 名称:tgt_tokens
序列类型:字符串(词元(Token)序列)
- 名称:corrections
列表结构:
- 名称:idx_src
序列类型:32位整数序列
- 名称:idx_tgt
序列类型:32位整数序列
- 名称:corr_type
数据类型:字符串
数据划分:
- 划分名称:train
字节数:6981243
样本数:19237
- 划分名称:validation
字节数:902510
样本数:2503
- 划分名称:test
字节数:836757
样本数:2337
下载大小:85667586
数据集总大小:8720510
提供机构:
matejklemen
原始信息汇总
数据集概述
数据集特征
- src_tokens: 字符串序列
- tgt_tokens: 字符串序列
- corrections: 列表
- idx_src: 整数序列
- idx_tgt: 整数序列
- corr_type: 字符串类型
数据集分割
- 训练集
- 字节数: 6981243
- 示例数: 19237
- 验证集
- 字节数: 902510
- 示例数: 2503
- 测试集
- 字节数: 836757
- 示例数: 2337
数据集大小
- 下载大小: 85667586
- 数据集大小: 8720510
许可证
- cc-by-sa-4.0



