Organika/wikisource-augmented-20240104
收藏Hugging Face2024-01-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Organika/wikisource-augmented-20240104
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: title
dtype: string
- name: text
dtype: string
- name: summary
dtype: string
- name: glossary
struct:
- name: English American
dtype: string
- name: U.S.
dtype: string
- name: Henry David Thoreau
dtype: string
- name: Emotion
dtype: string
- name: February 1919
dtype: string
- name: The Misfortunes Of Elphin
dtype: string
- name: Atlantic
dtype: string
- name: Journalese
dtype: string
- name: Whom
dtype: string
- name: The Smithsonian Institution
dtype: string
- name: One
dtype: string
- name: Constitution
dtype: string
- name: Nathan Hale
dtype: string
- name: Schulte
dtype: string
- name: Supreme Court
dtype: string
- name: Longfellow
dtype: string
- name: Two
dtype: string
- name: The Century Magazine
dtype: string
- name: Memorandum
dtype: string
- name: Philip Dadd
dtype: string
- name: July 1915
dtype: string
- name: Prose
dtype: string
splits:
- name: train
num_bytes: 2750845
num_examples: 246
download_size: 1689486
dataset_size: 2750845
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
数据集信息:
特征字段:
- 名称:标题(title),数据类型:字符串(string)
- 名称:文本(text),数据类型:字符串(string)
- 名称:摘要(summary),数据类型:字符串(string)
- 名称:术语表(glossary),其结构为:
- 名称:美式英语(English American),数据类型:字符串(string)
- 名称:美国(U.S.),数据类型:字符串(string)
- 名称:亨利·戴维·梭罗(Henry David Thoreau),数据类型:字符串(string)
- 名称:情感(Emotion),数据类型:字符串(string)
- 名称:1919年2月(February 1919),数据类型:字符串(string)
- 名称:《埃尔芬的不幸》(The Misfortunes Of Elphin),数据类型:字符串(string)
- 名称:《大西洋》(Atlantic),数据类型:字符串(string)
- 名称:新闻体(Journalese),数据类型:字符串(string)
- 名称:宾格代词whom(Whom),数据类型:字符串(string)
- 名称:史密森学会(The Smithsonian Institution),数据类型:字符串(string)
- 名称:一(One),数据类型:字符串(string)
- 名称:宪法(Constitution),数据类型:字符串(string)
- 名称:内森·黑尔(Nathan Hale),数据类型:字符串(string)
- 名称:舒尔特(Schulte),数据类型:字符串(string)
- 名称:最高法院(Supreme Court),数据类型:字符串(string)
- 名称:朗费罗(Longfellow),数据类型:字符串(string)
- 名称:二(Two),数据类型:字符串(string)
- 名称:《世纪杂志》(The Century Magazine),数据类型:字符串(string)
- 名称:备忘录(Memorandum),数据类型:字符串(string)
- 名称:菲利普·达德(Philip Dadd),数据类型:字符串(string)
- 名称:1915年7月(July 1915),数据类型:字符串(string)
- 名称:散文(Prose),数据类型:字符串(string)
数据拆分:
- 拆分名称:训练集(train),字节大小:2750845,样本数量:246
下载大小:1689486,数据集总大小:2750845
数据集配置:
- 配置名称:默认配置(default),数据文件:
- 拆分:训练集(train),文件路径:data/train-*
提供机构:
Organika
原始信息汇总
数据集概述
数据特征
- title: 数据类型为字符串。
- text: 数据类型为字符串。
- summary: 数据类型为字符串。
- glossary: 结构化数据,包含以下字段:
- English American: 数据类型为字符串。
- U.S.: 数据类型为字符串。
- Henry David Thoreau: 数据类型为字符串。
- Emotion: 数据类型为字符串。
- February 1919: 数据类型为字符串。
- The Misfortunes Of Elphin: 数据类型为字符串。
- Atlantic: 数据类型为字符串。
- Journalese: 数据类型为字符串。
- Whom: 数据类型为字符串。
- The Smithsonian Institution: 数据类型为字符串。
- One: 数据类型为字符串。
- Constitution: 数据类型为字符串。
- Nathan Hale: 数据类型为字符串。
- Schulte: 数据类型为字符串。
- Supreme Court: 数据类型为字符串。
- Longfellow: 数据类型为字符串。
- Two: 数据类型为字符串。
- The Century Magazine: 数据类型为字符串。
- Memorandum: 数据类型为字符串。
- Philip Dadd: 数据类型为字符串。
- July 1915: 数据类型为字符串。
- Prose: 数据类型为字符串。
数据分割
- train: 包含246个样本,占用2750845字节。
数据集大小
- 下载大小: 1689486字节。
- 数据集大小: 2750845字节。
配置
- default: 包含训练数据文件,路径为
data/train-*。



