five

Zaid/ashaar_dataset

收藏
Hugging Face2023-05-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Zaid/ashaar_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: poem title dtype: string - name: poem meter dtype: string - name: poem verses sequence: string - name: poem theme dtype: string - name: poem url dtype: string - name: poet name dtype: string - name: poet description dtype: string - name: poet url dtype: string - name: poet era dtype: string - name: poet location dtype: string - name: poem description list: - name: attributes struct: - name: class dtype: string - name: color dtype: string - name: dir dtype: string - name: face dtype: string - name: id dtype: string - name: lang dtype: string - name: style dtype: string - name: children list: - name: attributes struct: - name: color dtype: string - name: dir dtype: string - name: face dtype: string - name: href dtype: string - name: id dtype: string - name: lang dtype: string - name: style dtype: string - name: title dtype: string - name: value dtype: string - name: children list: - name: attributes struct: - name: class dtype: string - name: color dtype: string - name: dir dtype: string - name: face dtype: string - name: lang dtype: string - name: style dtype: string - name: children list: - name: attributes struct: - name: align dtype: string - name: face dtype: string - name: nowrap dtype: string - name: name dtype: string - name: parentAttributes struct: - name: lang dtype: string - name: style dtype: string - name: size dtype: int64 - name: text dtype: string - name: truncated dtype: bool - name: type dtype: string - name: name dtype: string - name: parentAttributes struct: - name: dir dtype: string - name: face dtype: string - name: id dtype: string - name: lang dtype: string - name: style dtype: string - name: partA dtype: string - name: size dtype: int64 - name: text dtype: string - name: truncated dtype: bool - name: type dtype: string - name: name dtype: string - name: parentAttributes struct: - name: class dtype: string - name: color dtype: string - name: dir dtype: string - name: id dtype: string - name: lang dtype: string - name: style dtype: string - name: partA dtype: string - name: partB dtype: string - name: size dtype: int64 - name: text dtype: string - name: truncated dtype: bool - name: type dtype: string - name: name dtype: string - name: parentAttributes struct: - name: dir dtype: string - name: style dtype: string - name: partA dtype: string - name: partB dtype: string - name: size dtype: int64 - name: text dtype: string - name: truncated dtype: bool - name: type dtype: string - name: poem language type dtype: string - name: text dtype: string splits: - name: train num_bytes: 600307848 num_examples: 136422 download_size: 248952816 dataset_size: 600307848 --- # Dataset Card for "ashaar_dataset" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

数据集信息: 特征: - 名称:诗名(poem title),数据类型:字符串 - 名称:诗律(poem meter),数据类型:字符串 - 名称:诗句(poem verses),数据类型:字符串序列 - 名称:诗歌主题(poem theme),数据类型:字符串 - 名称:诗歌链接(poem url),数据类型:字符串 - 名称:诗人姓名(poet name),数据类型:字符串 - 名称:诗人简介(poet description),数据类型:字符串 - 名称:诗人链接(poet url),数据类型:字符串 - 名称:诗人所处时代(poet era),数据类型:字符串 - 名称:诗人所在地域(poet location),数据类型:字符串 - 名称:诗歌描述(poem description),数据类型:列表,其元素包含: - attributes:属性结构体(attributes),包含字段:类(class)、颜色(color)、文本方向(dir)、字体(face)、标识符(id)、语言(lang)、样式(style) - children:子节点列表(children),每个子节点包含: - attributes:属性结构体(attributes),包含字段:颜色(color)、文本方向(dir)、字体(face)、超链接(href)、标识符(id)、语言(lang)、样式(style)、标题(title)、值(value) - children:子节点列表(children),每个子节点包含: - attributes:属性结构体(attributes),包含字段:对齐方式(align)、字体(face)、不换行(nowrap) - name:名称,数据类型:字符串 - parentAttributes:父属性结构体(parentAttributes),包含字段:语言(lang)、样式(style) - size:大小(size),数据类型:64位整数 - text:文本(text),数据类型:字符串 - truncated:截断标记(truncated),数据类型:布尔值 - type:类型(type),数据类型:字符串 - name:名称,数据类型:字符串 - parentAttributes:父属性结构体(parentAttributes),包含字段:文本方向(dir)、字体(face)、标识符(id)、语言(lang)、样式(style) - partA:部分A(partA),数据类型:字符串 - size:大小(size),数据类型:64位整数 - text:文本(text),数据类型:字符串 - truncated:截断标记(truncated),数据类型:布尔值 - type:类型(type),数据类型:字符串 - name:名称,数据类型:字符串 - parentAttributes:父属性结构体(parentAttributes),包含字段:文本方向(dir)、样式(style) - partA:部分A(partA),数据类型:字符串 - partB:部分B(partB),数据类型:字符串 - size:大小(size),数据类型:64位整数 - text:文本(text),数据类型:字符串 - truncated:截断标记(truncated),数据类型:布尔值 - type:类型(type),数据类型:字符串 - 名称:诗歌语言类型(poem language type),数据类型:字符串 - 名称:文本(text),数据类型:字符串 划分集: - 名称:训练集(train),字节数:600307848,样本数量:136422 下载大小:248952816 数据集总大小:600307848 # 「ashaar_dataset」数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
Zaid
原始信息汇总

数据集概述

数据集名称

  • 名称:ashaar_dataset

数据集特征

  • 诗标题 (poem title): 字符串类型
  • 诗韵律 (poem meter): 字符串类型
  • 诗节 (poem verses): 字符串序列
  • 诗主题 (poem theme): 字符串类型
  • 诗URL (poem url): 字符串类型
  • 诗人姓名 (poet name): 字符串类型
  • 诗人描述 (poet description): 字符串类型
  • 诗人URL (poet url): 字符串类型
  • 诗人时代 (poet era): 字符串类型
  • 诗人位置 (poet location): 字符串类型
  • 诗描述 (poem description): 列表类型,包含多个结构化属性
    • 属性 (attributes): 结构化数据,包含多个字段(如class, color, dir, face, id, lang, style
    • 子项 (children): 列表类型,包含多个子项,每个子项包含多个属性(如color, dir, face, href, id, lang, style, title, value
  • 诗语言类型 (poem language type): 字符串类型
  • 文本 (text): 字符串类型

数据集分割

  • 训练集 (train):
    • 字节数: 600307848
    • 示例数: 136422

数据集大小

  • 下载大小: 248952816
  • 数据集大小: 600307848
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Zaid/ashaar_dataset是一个阿拉伯语诗歌数据集,包含13.6万行诗歌数据,涵盖多种诗歌主题和诗人信息,适用于自然语言处理和文化研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作