vnixxa31/llm-auto-correct_wikipedia_test
收藏Hugging Face2026-04-01 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/vnixxa31/llm-auto-correct_wikipedia_test
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: deletion
path: data/deletion-*
- split: duplication
path: data/duplication-*
- split: insertion
path: data/insertion-*
- split: multi_key
path: data/multi_key-*
- split: no_error
path: data/no_error-*
- split: qwerty_neighbor
path: data/qwerty_neighbor-*
- split: space_or_punct
path: data/space_or_punct-*
- split: transpose
path: data/transpose-*
- split: word_confusion
path: data/word_confusion-*
dataset_info:
features:
- name: source_text
dtype: string
- name: input_text
dtype: string
- name: target_text
dtype: string
- name: example_type
dtype: string
- name: changed
dtype: bool
- name: operations
list:
- name: after
dtype: string
- name: before
dtype: string
- name: char_index
dtype: int64
- name: details
dtype: json
- name: typo_type
dtype: string
- name: word_index
dtype: int64
splits:
- name: deletion
num_bytes: 3586123291
num_examples: 7810633
- name: duplication
num_bytes: 2227867730
num_examples: 4852331
- name: insertion
num_bytes: 2969399559
num_examples: 6467399
- name: multi_key
num_bytes: 1486675201
num_examples: 3238002
- name: no_error
num_bytes: 40841415452
num_examples: 88953246
- name: qwerty_neighbor
num_bytes: 7422820068
num_examples: 16167019
- name: space_or_punct
num_bytes: 1433578248
num_examples: 3122356
- name: transpose
num_bytes: 5576518450
num_examples: 12145745
- name: word_confusion
num_bytes: 158937785
num_examples: 346169
download_size: 40596219522
dataset_size: 65703335784
---
配置项:
- 配置名称:默认(default)
数据文件:
- 数据集拆分:删除错误(deletion)
路径:data/deletion-*
- 数据集拆分:重复错误(duplication)
路径:data/duplication-*
- 数据集拆分:插入错误(insertion)
路径:data/insertion-*
- 数据集拆分:多键错误(multi_key)
路径:data/multi_key-*
- 数据集拆分:无错误(no_error)
路径:data/no_error-*
- 数据集拆分:QWERTY邻键错误(qwerty_neighbor)
路径:data/qwerty_neighbor-*
- 数据集拆分:空格或标点错误(space_or_punct)
路径:data/space_or_punct-*
- 数据集拆分:字符转置错误(transpose)
路径:data/transpose-*
- 数据集拆分:词汇混淆错误(word_confusion)
路径:data/word_confusion-*
数据集信息:
特征字段:
- 源文本(source_text):数据类型:字符串
- 输入文本(input_text):数据类型:字符串
- 目标文本(target_text):数据类型:字符串
- 示例类型(example_type):数据类型:字符串
- 是否修改(changed):数据类型:布尔值
- 操作列表(operations):
- 变更后文本(after):数据类型:字符串
- 变更前文本(before):数据类型:字符串
- 字符索引(char_index):数据类型:64位整数
- 详细信息(details):数据类型:JSON
- 拼写错误类型(typo_type):数据类型:字符串
- 单词索引(word_index):数据类型:64位整数
数据集拆分:
- 拆分名称:删除错误(deletion):总字节数:3586123291,示例总数:7810633
- 拆分名称:重复错误(duplication):总字节数:2227867730,示例总数:4852331
- 拆分名称:插入错误(insertion):总字节数:2969399559,示例总数:6467399
- 拆分名称:多键错误(multi_key):总字节数:1486675201,示例总数:3238002
- 拆分名称:无错误(no_error):总字节数:40841415452,示例总数:88953246
- 拆分名称:QWERTY邻键错误(qwerty_neighbor):总字节数:7422820068,示例总数:16167019
- 拆分名称:空格或标点错误(space_or_punct):总字节数:1433578248,示例总数:3122356
- 拆分名称:字符转置错误(transpose):总字节数:5576518450,示例总数:12145745
- 拆分名称:词汇混淆错误(word_confusion):总字节数:158937785,示例总数:346169
下载总大小:40596219522 字节
数据集总大小:65703335784 字节
提供机构:
vnixxa31



