LocalDoc/books_dataset
收藏Hugging Face2024-03-13 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/LocalDoc/books_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含2800本不同主题的阿塞拜疆语书籍,创建于2024年,包含780万条句子。书籍被分割成句子并经过预过滤,仅包含字母占总字符数至少80%的句子。句子的顺序与书籍中的顺序相同。数据集以逗号分隔值(CSV)格式提供,每行代表一篇文章,包含以下字段:ID(书籍唯一ID)、Metadata(作者、标题、出版年份、出版城市、出版商名称、书籍类别信息)、Sentence(句子)。
该数据集包含2800本不同主题的阿塞拜疆语书籍,创建于2024年,包含780万条句子。书籍被分割成句子并经过预过滤,仅包含字母占总字符数至少80%的句子。句子的顺序与书籍中的顺序相同。数据集以逗号分隔值(CSV)格式提供,每行代表一篇文章,包含以下字段:ID(书籍唯一ID)、Metadata(作者、标题、出版年份、出版城市、出版商名称、书籍类别信息)、Sentence(句子)。
提供机构:
LocalDoc
原始信息汇总
数据集概述
基本信息
- 名称: Azerbaijani Books Dataset
- 语言: Azerbaijani
- 类别:
- text-generation
- fill-mask
- 标签: book
- 大小: 1M<n<10M
- 许可证: Creative Commons Attribution-NonCommercial 4.0 International
数据集详情
- 包含内容: 2800本书,共7.8百万句子
- 创建年份: 2024
- 数据预处理: 仅包含至少80%字母的句子,句子顺序与书中一致
- 格式: CSV,每行包含ID、Metadata、Sentence三个字段
数据集结构
- 特征:
- ID: 字符串类型,书籍唯一ID
- Metadata: 字符串类型,包含作者、标题、出版年份、出版城市、出版社名称、书籍类别等信息
- Sentence: 字符串类型,句子内容
数据集分割
- 训练集:
- 示例数量: 7807263
- 数据大小: 2908183660字节
- 下载大小: 695682034字节
联系方式
- 邮箱: v.resad.89@gmail.com



