Martin97Bozic/solar-incorrect
收藏Hugging Face2023-10-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Martin97Bozic/solar-incorrect
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id_doc
dtype: string
- name: doc_title
dtype: string
- name: is_manually_validated
dtype: bool
- name: src_tokens
sequence: string
- name: src_ling_annotations
struct:
- name: lemma
sequence: string
- name: ana
sequence: string
- name: msd
sequence: string
- name: ne_tag
sequence: string
- name: space_after
sequence: bool
- name: tgt_tokens
sequence: string
- name: tgt_ling_annotations
struct:
- name: lemma
sequence: string
- name: ana
sequence: string
- name: msd
sequence: string
- name: ne_tag
sequence: string
- name: space_after
sequence: bool
- name: corrections
list:
- name: idx_src
sequence: int32
- name: idx_tgt
sequence: int32
- name: corr_types
sequence: string
- name: text
dtype: string
splits:
- name: train
num_bytes: 6534388
num_examples: 512
download_size: 878259
dataset_size: 6534388
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
# Dataset Card for "solar-incorrect"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
---
dataset_info:
特征字段:
- 字段名:id_doc,数据类型:字符串
- 字段名:doc_title,数据类型:字符串
- 字段名:is_manually_validated,数据类型:布尔值
- 字段名:src_tokens,序列数据类型:字符串(Token(Token)序列)
- 字段名:src_ling_annotations,结构体类型,包含子字段:
- 词形(lemma):序列数据类型:字符串
- 词法分析标记(ana):序列数据类型:字符串
- 形态句法描述(msd):序列数据类型:字符串
- 命名实体标签(ne_tag):序列数据类型:字符串
- 后续空格标记(space_after):序列数据类型:布尔值
- 字段名:tgt_tokens,序列数据类型:字符串(Token(Token)序列)
- 字段名:tgt_ling_annotations,结构体类型,包含子字段:
- 词形(lemma):序列数据类型:字符串
- 词法分析标记(ana):序列数据类型:字符串
- 形态句法描述(msd):序列数据类型:字符串
- 命名实体标签(ne_tag):序列数据类型:字符串
- 后续空格标记(space_after):序列数据类型:布尔值
- 字段名:corrections,列表类型,包含子字段:
- 源语言索引(idx_src):序列数据类型:int32整型
- 目标语言索引(idx_tgt):序列数据类型:int32整型
- 校正类型(corr_types):序列数据类型:字符串
- 字段名:text,数据类型:字符串
数据集划分:
- 划分名称:train(训练集),占用字节数:6534388,样本数量:512
下载大小:878259,数据集总大小:6534388
配置项:
- 配置名称:default(默认配置),数据文件:
- 数据集划分:train,文件路径:data/train-*
---
# "solar-incorrect"数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
Martin97Bozic
原始信息汇总
数据集概述
数据集信息
- 特征列表:
id_doc: 文档ID,数据类型为字符串。doc_title: 文档标题,数据类型为字符串。is_manually_validated: 是否手动验证,数据类型为布尔值。src_tokens: 源语言标记序列,数据类型为字符串序列。src_ling_annotations: 源语言注释结构,包含以下字段:lemma: 词元序列,数据类型为字符串序列。ana: 分析序列,数据类型为字符串序列。msd: 形态句法描述序列,数据类型为字符串序列。ne_tag: 命名实体标签序列,数据类型为字符串序列。space_after: 是否在词后有空格,数据类型为布尔值序列。
tgt_tokens: 目标语言标记序列,数据类型为字符串序列。tgt_ling_annotations: 目标语言注释结构,包含以下字段:lemma: 词元序列,数据类型为字符串序列。ana: 分析序列,数据类型为字符串序列。msd: 形态句法描述序列,数据类型为字符串序列。ne_tag: 命名实体标签序列,数据类型为字符串序列。space_after: 是否在词后有空格,数据类型为布尔值序列。
corrections: 更正列表,包含以下字段:idx_src: 源索引序列,数据类型为整数序列。idx_tgt: 目标索引序列,数据类型为整数序列。corr_types: 更正类型序列,数据类型为字符串序列。
text: 文本内容,数据类型为字符串。
数据集划分
- 训练集:
- 名称:
train - 字节数: 6534388
- 样本数: 512
- 名称:
数据集大小
- 下载大小: 878259 字节
- 数据集大小: 6534388 字节
配置信息
- 配置名称:
default - 数据文件:
- 划分:
train - 路径:
data/train-*
- 划分:



