jp1924/MedicalandLegalSpecializedBookCorpus
收藏Hugging Face2024-06-05 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/jp1924/MedicalandLegalSpecializedBookCorpus
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: string
- name: corpus
dtype: string
- name: category
dtype: string
- name: sentence_ls
list: string
- name: metadata
struct:
- name: publication_ymd
dtype: string
- name: word_segment
dtype: int32
- name: popularity
dtype: int32
- name: keyword
list: string
- name: NE
list:
- name: id
dtype: int32
- name: entity
dtype: string
- name: type
dtype: string
- name: begin
dtype: int32
- name: end
dtype: int32
splits:
- name: train
num_bytes: 1898714231
num_examples: 101211
- name: validation
num_bytes: 235741849
num_examples: 12651
download_size: 954765365
dataset_size: 2134456080
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
---
数据集信息:
特征:
- 名称:id
数据类型:字符串
- 名称:语料库(corpus)
数据类型:字符串
- 名称:类别(category)
数据类型:字符串
- 名称:句子列表(sentence_ls)
列表类型:字符串
- 名称:元数据(metadata)
结构体:
- 名称:发布日期(publication_ymd)
数据类型:字符串
- 名称:分词数(word_segment)
数据类型:int32
- 名称:流行度(popularity)
数据类型:int32
- 名称:关键词(keyword)
列表类型:字符串
- 名称:命名实体(NE)
列表类型:
- 名称:id
数据类型:int32
- 名称:实体(entity)
数据类型:字符串
- 名称:类型(type)
数据类型:字符串
- 名称:起始位置(begin)
数据类型:int32
- 名称:结束位置(end)
数据类型:int32
数据拆分:
- 名称:训练集(train)
字节数:1898714231
样本数:101211
- 名称:验证集(validation)
字节数:235741849
样本数:12651
下载大小:954765365
数据集大小:2134456080
配置:
- 配置名称:default
数据文件:
- 拆分:train
路径:data/train-*
- 拆分:validation
路径:data/validation-*
提供机构:
jp1924
原始信息汇总
数据集概述
数据集特征
- id:字符串类型
- corpus:字符串类型
- category:字符串类型
- sentence_ls:字符串列表类型
- metadata:结构化数据,包含以下字段:
- publication_ymd:字符串类型
- word_segment:整数类型(int32)
- popularity:整数类型(int32)
- keyword:字符串列表类型
- NE(命名实体):列表类型,包含以下字段:
- id:整数类型(int32)
- entity:字符串类型
- type:字符串类型
- begin:整数类型(int32)
- end:整数类型(int32)
数据集分割
- 训练集(train):
- 数据量:1898714231字节
- 示例数:101211
- 验证集(validation):
- 数据量:235741849字节
- 示例数:12651
数据集大小
- 下载大小:954765365字节
- 数据集总大小:2134456080字节
配置文件
- 默认配置(default):
- 训练集路径:
data/train-* - 验证集路径:
data/validation-*
- 训练集路径:



