five

LocalDoc/books_dataset

收藏
Hugging Face2024-03-13 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/LocalDoc/books_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含2800本不同主题的阿塞拜疆语书籍,创建于2024年,包含780万条句子。书籍被分割成句子并经过预过滤,仅包含字母占总字符数至少80%的句子。句子的顺序与书籍中的顺序相同。数据集以逗号分隔值(CSV)格式提供,每行代表一篇文章,包含以下字段:ID(书籍唯一ID)、Metadata(作者、标题、出版年份、出版城市、出版商名称、书籍类别信息)、Sentence(句子)。

该数据集包含2800本不同主题的阿塞拜疆语书籍,创建于2024年,包含780万条句子。书籍被分割成句子并经过预过滤,仅包含字母占总字符数至少80%的句子。句子的顺序与书籍中的顺序相同。数据集以逗号分隔值(CSV)格式提供,每行代表一篇文章,包含以下字段:ID(书籍唯一ID)、Metadata(作者、标题、出版年份、出版城市、出版商名称、书籍类别信息)、Sentence(句子)。
提供机构:
LocalDoc
原始信息汇总

数据集概述

基本信息

  • 名称: Azerbaijani Books Dataset
  • 语言: Azerbaijani
  • 类别:
    • text-generation
    • fill-mask
  • 标签: book
  • 大小: 1M<n<10M
  • 许可证: Creative Commons Attribution-NonCommercial 4.0 International

数据集详情

  • 包含内容: 2800本书,共7.8百万句子
  • 创建年份: 2024
  • 数据预处理: 仅包含至少80%字母的句子,句子顺序与书中一致
  • 格式: CSV,每行包含ID、Metadata、Sentence三个字段

数据集结构

  • 特征:
    • ID: 字符串类型,书籍唯一ID
    • Metadata: 字符串类型,包含作者、标题、出版年份、出版城市、出版社名称、书籍类别等信息
    • Sentence: 字符串类型,句子内容

数据集分割

  • 训练集:
    • 示例数量: 7807263
    • 数据大小: 2908183660字节
    • 下载大小: 695682034字节

联系方式

  • 邮箱: v.resad.89@gmail.com
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作