five

vnixxa31/llm-auto-correct_wikipedia_test

收藏
Hugging Face2026-04-01 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/vnixxa31/llm-auto-correct_wikipedia_test
下载链接
链接失效反馈
官方服务:
资源简介:
--- configs: - config_name: default data_files: - split: deletion path: data/deletion-* - split: duplication path: data/duplication-* - split: insertion path: data/insertion-* - split: multi_key path: data/multi_key-* - split: no_error path: data/no_error-* - split: qwerty_neighbor path: data/qwerty_neighbor-* - split: space_or_punct path: data/space_or_punct-* - split: transpose path: data/transpose-* - split: word_confusion path: data/word_confusion-* dataset_info: features: - name: source_text dtype: string - name: input_text dtype: string - name: target_text dtype: string - name: example_type dtype: string - name: changed dtype: bool - name: operations list: - name: after dtype: string - name: before dtype: string - name: char_index dtype: int64 - name: details dtype: json - name: typo_type dtype: string - name: word_index dtype: int64 splits: - name: deletion num_bytes: 3586123291 num_examples: 7810633 - name: duplication num_bytes: 2227867730 num_examples: 4852331 - name: insertion num_bytes: 2969399559 num_examples: 6467399 - name: multi_key num_bytes: 1486675201 num_examples: 3238002 - name: no_error num_bytes: 40841415452 num_examples: 88953246 - name: qwerty_neighbor num_bytes: 7422820068 num_examples: 16167019 - name: space_or_punct num_bytes: 1433578248 num_examples: 3122356 - name: transpose num_bytes: 5576518450 num_examples: 12145745 - name: word_confusion num_bytes: 158937785 num_examples: 346169 download_size: 40596219522 dataset_size: 65703335784 ---

配置项: - 配置名称:默认(default) 数据文件: - 数据集拆分:删除错误(deletion) 路径:data/deletion-* - 数据集拆分:重复错误(duplication) 路径:data/duplication-* - 数据集拆分:插入错误(insertion) 路径:data/insertion-* - 数据集拆分:多键错误(multi_key) 路径:data/multi_key-* - 数据集拆分:无错误(no_error) 路径:data/no_error-* - 数据集拆分:QWERTY邻键错误(qwerty_neighbor) 路径:data/qwerty_neighbor-* - 数据集拆分:空格或标点错误(space_or_punct) 路径:data/space_or_punct-* - 数据集拆分:字符转置错误(transpose) 路径:data/transpose-* - 数据集拆分:词汇混淆错误(word_confusion) 路径:data/word_confusion-* 数据集信息: 特征字段: - 源文本(source_text):数据类型:字符串 - 输入文本(input_text):数据类型:字符串 - 目标文本(target_text):数据类型:字符串 - 示例类型(example_type):数据类型:字符串 - 是否修改(changed):数据类型:布尔值 - 操作列表(operations): - 变更后文本(after):数据类型:字符串 - 变更前文本(before):数据类型:字符串 - 字符索引(char_index):数据类型:64位整数 - 详细信息(details):数据类型:JSON - 拼写错误类型(typo_type):数据类型:字符串 - 单词索引(word_index):数据类型:64位整数 数据集拆分: - 拆分名称:删除错误(deletion):总字节数:3586123291,示例总数:7810633 - 拆分名称:重复错误(duplication):总字节数:2227867730,示例总数:4852331 - 拆分名称:插入错误(insertion):总字节数:2969399559,示例总数:6467399 - 拆分名称:多键错误(multi_key):总字节数:1486675201,示例总数:3238002 - 拆分名称:无错误(no_error):总字节数:40841415452,示例总数:88953246 - 拆分名称:QWERTY邻键错误(qwerty_neighbor):总字节数:7422820068,示例总数:16167019 - 拆分名称:空格或标点错误(space_or_punct):总字节数:1433578248,示例总数:3122356 - 拆分名称:字符转置错误(transpose):总字节数:5576518450,示例总数:12145745 - 拆分名称:词汇混淆错误(word_confusion):总字节数:158937785,示例总数:346169 下载总大小:40596219522 字节 数据集总大小:65703335784 字节
提供机构:
vnixxa31
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作