five

Sefaria/english_library

收藏
Hugging Face2023-11-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Sefaria/english_library
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: gpl-3.0 --- # Description Export of Sefaria's English library data. This data represents over version in the library marked as English. ## Schema | Field | Description | | --- | --- | | text | The text of a single segment in the library. A segment is the smallest chunk of test, usually representing a paragraph. | | metadata | Dictionary of metadata. See below for schema. | ### Metadata Schema | Field | Description | | --- | --- | | url | URL to this segment in Sefaria | | ref | Canonical Ref to this segment. Refs are a human readable ID that is unique independent of version. Different versions of a segment all share the same Ref. | | versionTitle | Version title of the version this segment came from. | | lang | two letter language code. | | docCategory | Category for this segment. This corresponds to where the segment's book is located in Sefaria's table of contents. | | dataQuality | Estimate of the quality of the text. This can be either "professional" or "user". | | pagerank | Pagerank for this segment calculated using Sefaria's internal link graph. Higher values indicate the segment is more centrally cited by sources. |
提供机构:
Sefaria
原始信息汇总

数据集描述

Sefaria英文图书馆数据的导出。此数据集包含了图书馆中标记为英文的所有版本的内容。

数据结构

字段 描述
text 图书馆中单个段落的文本。段落通常代表一个段落。
metadata 元数据字典。具体结构见下文。

元数据结构

字段 描述
url 该段落在Sefaria中的URL
ref 该段落的规范引用。引用是一个独立于版本的唯一人类可读ID。不同版本的段落共享相同的引用。
versionTitle 该段落所属版本的标题。
lang 两字母语言代码。
docCategory 该段落的分类。对应于该段落书籍在Sefaria目录中的位置。
dataQuality 文本质量的估计。可以是“professional”或“user”。
pagerank 使用Sefaria内部链接图计算的该段落的Pagerank。值越高表示该段落被来源引用的中心性越高。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作