Thanmay/lsoie_seq2seq
收藏Hugging Face2024-03-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Thanmay/lsoie_seq2seq
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: source
dtype: string
- name: target
dtype: string
- name: clausie_trg
dtype: string
- name: POS
struct:
- name: tags
sequence: string
- name: words
sequence: string
- name: SynDP
struct:
- name: tags
sequence: string
- name: words
sequence: string
- name: SemDP
struct:
- name: tags
sequence: string
- name: words
sequence: string
splits:
- name: train
num_bytes: 32802784
num_examples: 17630
- name: validation
num_bytes: 3797686
num_examples: 2045
- name: test
num_bytes: 3893095
num_examples: 2161
download_size: 14091445
dataset_size: 40493565
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
---
数据集元信息:
特征字段:
- 源(source):字符串类型
- 目标(target):字符串类型
- ClausIE目标抽取结果字段(clausie_trg):字符串类型
- 词性标注(Part-of-Speech, POS):结构体类型,包含子字段:
- 词性标签(tags):字符串序列
- 分词词项(words):字符串序列
- 句法依存分析(Syntactic Dependency Parsing, SynDP):结构体类型,包含子字段:
- 依存标签(tags):字符串序列
- 分词词项(words):字符串序列
- 语义依存分析(Semantic Dependency Parsing, SemDP):结构体类型,包含子字段:
- 依存标签(tags):字符串序列
- 分词词项(words):字符串序列
数据集划分:
- 训练集(train):占用字节数32802784,样本量17630
- 验证集(validation):占用字节数3797686,样本量2045
- 测试集(test):占用字节数3893095,样本量2161
全局参数:下载总大小14091445字节,数据集总占用大小40493565字节
配置项:
- 默认配置(default):数据文件路径配置如下:
- 训练集:data/train-*
- 验证集:data/validation-*
- 测试集:data/test-*
提供机构:
Thanmay
原始信息汇总
数据集概述
数据特征
- source: 字符串类型
- target: 字符串类型
- clausie_trg: 字符串类型
- POS: 结构体类型,包含以下序列:
- tags: 字符串序列
- words: 字符串序列
- SynDP: 结构体类型,包含以下序列:
- tags: 字符串序列
- words: 字符串序列
- SemDP: 结构体类型,包含以下序列:
- tags: 字符串序列
- words: 字符串序列
数据分割
- train: 包含17630个样本,占用32802784字节
- validation: 包含2045个样本,占用3797686字节
- test: 包含2161个样本,占用3893095字节
数据集大小
- 下载大小: 14091445字节
- 数据集大小: 40493565字节
配置
- default: 包含以下数据文件路径:
- train:
data/train-* - validation:
data/validation-* - test:
data/test-*
- train:



