rntc/istex-reform-scientific
收藏Hugging Face2025-12-10 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/rntc/istex-reform-scientific
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: abstract
dtype: string
- name: original_text
dtype: string
- name: reformulation
dtype: string
- name: original_token_count
dtype: int64
- name: reformulation_token_count
dtype: int64
- name: istex_id
dtype: string
- name: title
dtype: string
- name: doi
dtype: string
- name: year
dtype: string
- name: journal
dtype: string
- name: num_chunks
dtype: int64
splits:
- name: train
num_bytes: 2007949711
num_examples: 56259
download_size: 1053166706
dataset_size: 2007949711
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
数据集信息(dataset_info):
特征(features):
- 字段名:摘要(abstract),数据类型:字符串(string)
- 字段名:原文(original_text),数据类型:字符串(string)
- 字段名:重述文本(reformulation),数据类型:字符串(string)
- 字段名:原文Token(Token)数(original_token_count),数据类型:64位整型(int64)
- 字段名:重述文本Token(Token)数(reformulation_token_count),数据类型:64位整型(int64)
- 字段名:ISTEX ID(istex_id),数据类型:字符串(string)
- 字段名:标题(title),数据类型:字符串(string)
- 字段名:数字对象标识符(DOI),数据类型:字符串(string)
- 字段名:发表年份(year),数据类型:字符串(string)
- 字段名:刊载期刊(journal),数据类型:字符串(string)
- 字段名:分块数量(num_chunks),数据类型:64位整型(int64)
数据集划分(splits):
- 划分名称:训练集(train),字节大小:2007949711,样本数量:56259
下载大小:1053166706,数据集总大小:2007949711
数据集配置(configs):
- 配置名称:默认配置(default),数据文件:
- 训练集划分对应数据文件路径:data/train-*
提供机构:
rntc



