Zaid/ashaar_dataset
收藏Hugging Face2023-05-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Zaid/ashaar_dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: poem title
dtype: string
- name: poem meter
dtype: string
- name: poem verses
sequence: string
- name: poem theme
dtype: string
- name: poem url
dtype: string
- name: poet name
dtype: string
- name: poet description
dtype: string
- name: poet url
dtype: string
- name: poet era
dtype: string
- name: poet location
dtype: string
- name: poem description
list:
- name: attributes
struct:
- name: class
dtype: string
- name: color
dtype: string
- name: dir
dtype: string
- name: face
dtype: string
- name: id
dtype: string
- name: lang
dtype: string
- name: style
dtype: string
- name: children
list:
- name: attributes
struct:
- name: color
dtype: string
- name: dir
dtype: string
- name: face
dtype: string
- name: href
dtype: string
- name: id
dtype: string
- name: lang
dtype: string
- name: style
dtype: string
- name: title
dtype: string
- name: value
dtype: string
- name: children
list:
- name: attributes
struct:
- name: class
dtype: string
- name: color
dtype: string
- name: dir
dtype: string
- name: face
dtype: string
- name: lang
dtype: string
- name: style
dtype: string
- name: children
list:
- name: attributes
struct:
- name: align
dtype: string
- name: face
dtype: string
- name: nowrap
dtype: string
- name: name
dtype: string
- name: parentAttributes
struct:
- name: lang
dtype: string
- name: style
dtype: string
- name: size
dtype: int64
- name: text
dtype: string
- name: truncated
dtype: bool
- name: type
dtype: string
- name: name
dtype: string
- name: parentAttributes
struct:
- name: dir
dtype: string
- name: face
dtype: string
- name: id
dtype: string
- name: lang
dtype: string
- name: style
dtype: string
- name: partA
dtype: string
- name: size
dtype: int64
- name: text
dtype: string
- name: truncated
dtype: bool
- name: type
dtype: string
- name: name
dtype: string
- name: parentAttributes
struct:
- name: class
dtype: string
- name: color
dtype: string
- name: dir
dtype: string
- name: id
dtype: string
- name: lang
dtype: string
- name: style
dtype: string
- name: partA
dtype: string
- name: partB
dtype: string
- name: size
dtype: int64
- name: text
dtype: string
- name: truncated
dtype: bool
- name: type
dtype: string
- name: name
dtype: string
- name: parentAttributes
struct:
- name: dir
dtype: string
- name: style
dtype: string
- name: partA
dtype: string
- name: partB
dtype: string
- name: size
dtype: int64
- name: text
dtype: string
- name: truncated
dtype: bool
- name: type
dtype: string
- name: poem language type
dtype: string
- name: text
dtype: string
splits:
- name: train
num_bytes: 600307848
num_examples: 136422
download_size: 248952816
dataset_size: 600307848
---
# Dataset Card for "ashaar_dataset"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
数据集信息:
特征:
- 名称:诗名(poem title),数据类型:字符串
- 名称:诗律(poem meter),数据类型:字符串
- 名称:诗句(poem verses),数据类型:字符串序列
- 名称:诗歌主题(poem theme),数据类型:字符串
- 名称:诗歌链接(poem url),数据类型:字符串
- 名称:诗人姓名(poet name),数据类型:字符串
- 名称:诗人简介(poet description),数据类型:字符串
- 名称:诗人链接(poet url),数据类型:字符串
- 名称:诗人所处时代(poet era),数据类型:字符串
- 名称:诗人所在地域(poet location),数据类型:字符串
- 名称:诗歌描述(poem description),数据类型:列表,其元素包含:
- attributes:属性结构体(attributes),包含字段:类(class)、颜色(color)、文本方向(dir)、字体(face)、标识符(id)、语言(lang)、样式(style)
- children:子节点列表(children),每个子节点包含:
- attributes:属性结构体(attributes),包含字段:颜色(color)、文本方向(dir)、字体(face)、超链接(href)、标识符(id)、语言(lang)、样式(style)、标题(title)、值(value)
- children:子节点列表(children),每个子节点包含:
- attributes:属性结构体(attributes),包含字段:对齐方式(align)、字体(face)、不换行(nowrap)
- name:名称,数据类型:字符串
- parentAttributes:父属性结构体(parentAttributes),包含字段:语言(lang)、样式(style)
- size:大小(size),数据类型:64位整数
- text:文本(text),数据类型:字符串
- truncated:截断标记(truncated),数据类型:布尔值
- type:类型(type),数据类型:字符串
- name:名称,数据类型:字符串
- parentAttributes:父属性结构体(parentAttributes),包含字段:文本方向(dir)、字体(face)、标识符(id)、语言(lang)、样式(style)
- partA:部分A(partA),数据类型:字符串
- size:大小(size),数据类型:64位整数
- text:文本(text),数据类型:字符串
- truncated:截断标记(truncated),数据类型:布尔值
- type:类型(type),数据类型:字符串
- name:名称,数据类型:字符串
- parentAttributes:父属性结构体(parentAttributes),包含字段:文本方向(dir)、样式(style)
- partA:部分A(partA),数据类型:字符串
- partB:部分B(partB),数据类型:字符串
- size:大小(size),数据类型:64位整数
- text:文本(text),数据类型:字符串
- truncated:截断标记(truncated),数据类型:布尔值
- type:类型(type),数据类型:字符串
- 名称:诗歌语言类型(poem language type),数据类型:字符串
- 名称:文本(text),数据类型:字符串
划分集:
- 名称:训练集(train),字节数:600307848,样本数量:136422
下载大小:248952816
数据集总大小:600307848
# 「ashaar_dataset」数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
Zaid
原始信息汇总
数据集概述
数据集名称
- 名称:ashaar_dataset
数据集特征
- 诗标题 (
poem title): 字符串类型 - 诗韵律 (
poem meter): 字符串类型 - 诗节 (
poem verses): 字符串序列 - 诗主题 (
poem theme): 字符串类型 - 诗URL (
poem url): 字符串类型 - 诗人姓名 (
poet name): 字符串类型 - 诗人描述 (
poet description): 字符串类型 - 诗人URL (
poet url): 字符串类型 - 诗人时代 (
poet era): 字符串类型 - 诗人位置 (
poet location): 字符串类型 - 诗描述 (
poem description): 列表类型,包含多个结构化属性- 属性 (
attributes): 结构化数据,包含多个字段(如class,color,dir,face,id,lang,style) - 子项 (
children): 列表类型,包含多个子项,每个子项包含多个属性(如color,dir,face,href,id,lang,style,title,value)
- 属性 (
- 诗语言类型 (
poem language type): 字符串类型 - 文本 (
text): 字符串类型
数据集分割
- 训练集 (
train):- 字节数: 600307848
- 示例数: 136422
数据集大小
- 下载大小: 248952816
- 数据集大小: 600307848
搜集汇总
数据集介绍

背景与挑战
背景概述
Zaid/ashaar_dataset是一个阿拉伯语诗歌数据集,包含13.6万行诗歌数据,涵盖多种诗歌主题和诗人信息,适用于自然语言处理和文化研究。
以上内容由遇见数据集搜集并总结生成



