IlyaGusev/ficbook
收藏Hugging Face2024-04-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/IlyaGusev/ficbook
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: url
dtype: string
- name: authors
sequence: string
- name: tags
sequence: string
- name: description
dtype: string
- name: likes
dtype: int64
- name: parts
list:
- name: clean_text
dtype: string
- name: date
dtype: string
- name: text
dtype: string
- name: title
dtype: string
- name: url
dtype: string
- name: part_count
dtype: int64
- name: title
dtype: string
- name: rating
dtype: string
- name: status
dtype: string
- name: direction
dtype: string
- name: category
dtype: string
- name: pairing
dtype: string
splits:
- name: train
num_bytes: 133011363906
num_examples: 1390475
download_size: 68013121186
dataset_size: 133011363906
language:
- ru
pretty_name: Ficbook Refined
tags:
- not-for-all-audiences
- roleplay
task_categories:
- text-generation
size_categories:
- 100K<n<1M
---
# Ficbook dataset
## Table of Contents
- [Table of Contents](#table-of-contents)
- [Description](#description)
- [Usage](#usage)
- [Personal and Sensitive Information](#personal-and-sensitive-information)
## Description
**Summary:** Dataset of 1.4M fan fiction stories from [ficbook.net](https://ficbook.net/). Dataset collection is still in progress.
**Script:** [create_ficbook.py](https://github.com/IlyaGusev/rulm/blob/master/data_processing/create_ficbook.py)
**Point of Contact:** [Ilya Gusev](phoenixilya@gmail.com)
**Languages:** Mostly Russian
## Usage
Dataset iteration:
```python
from datasets import load_dataset
dataset = load_dataset('IlyaGusev/ficbook', split="train", streaming=True)
for example in dataset:
print(example["parts"][0]["clean_text"])
```
## Personal and Sensitive Information
Information about the original authors is included in the dataset where possible. Many stories from the dataset contain NSFW content.
dataset_info: 数据集信息:
特征列表:
- 字段名:url,数据类型:字符串
- 字段名:authors,数据类型:字符串序列
- 字段名:tags,数据类型:字符串序列
- 字段名:description,数据类型:字符串
- 字段名:likes,数据类型:64位整数
- 字段名:parts,数据类型:列表,包含子字段:
- 字段名:clean_text,数据类型:字符串
- 字段名:date,数据类型:字符串
- 字段名:text,数据类型:字符串
- 字段名:title,数据类型:字符串
- 字段名:url,数据类型:字符串
- 字段名:part_count,数据类型:64位整数
- 字段名:title,数据类型:字符串
- 字段名:rating,数据类型:字符串
- 字段名:status,数据类型:字符串
- 字段名:direction,数据类型:字符串
- 字段名:category,数据类型:字符串
- 字段名:pairing,数据类型:字符串
数据集划分:
- 划分名称:train(训练集),占用字节数:133011363906,样本数量:1390475
下载大小:68013121186字节
数据集总大小:133011363906字节
语言:俄语
展示名称:Ficbook Refined
标签:
- not-for-all-audiences(全年龄段不适宜)
- roleplay(角色扮演)
任务类别:
- text-generation(文本生成)
规模类别:100K<n<1M(样本量介于10万至100万之间)
# Ficbook数据集
## 目录
- [目录](#目录)
- [数据集说明](#数据集说明)
- [使用方法](#使用方法)
- [个人与敏感信息](#个人与敏感信息)
## 数据集说明
**摘要:** 该数据集包含来自[ficbook.net](https://ficbook.net/)的140万篇同人小说故事,数据集收集工作仍在进行中。
**数据处理脚本:** [create_ficbook.py](https://github.com/IlyaGusev/rulm/blob/master/data_processing/create_ficbook.py)
**联系人:** [Ilya Gusev](phoenixilya@gmail.com)
**语言:** 以俄语为主
## 使用方法
数据集迭代示例:
python
from datasets import load_dataset
dataset = load_dataset('IlyaGusev/ficbook', split="train", streaming=True)
for example in dataset:
print(example["parts"][0]["clean_text"])
## 个人与敏感信息
数据集尽可能保留了原作者的相关信息。数据集中的多篇故事包含不适合全年龄段(Not Safe For Work, NSFW)内容。
提供机构:
IlyaGusev
原始信息汇总
Ficbook 数据集
数据集信息
特征
- url: 字符串类型
- authors: 字符串序列
- tags: 字符串序列
- description: 字符串类型
- likes: 64位整数类型
- parts: 列表类型
- clean_text: 字符串类型
- date: 字符串类型
- text: 字符串类型
- title: 字符串类型
- url: 字符串类型
- part_count: 64位整数类型
- title: 字符串类型
- rating: 字符串类型
- status: 字符串类型
- direction: 字符串类型
- category: 字符串类型
- pairing: 字符串类型
分割
- train: 包含1390475个样本,总字节数为133011363906
大小
- 下载大小: 68013121186字节
- 数据集大小: 133011363906字节
语言
- 俄语
标签
- not-for-all-audiences
- roleplay
任务类别
- 文本生成
大小类别
- 100K<n<1M
描述
摘要: 来自ficbook.net的140万篇同人小说数据集。数据集收集仍在进行中。
联系人: Ilya Gusev
语言: 主要是俄语
使用
数据集迭代示例: python from datasets import load_dataset dataset = load_dataset(IlyaGusev/ficbook, split="train", streaming=True) for example in dataset: print(example["parts"][0]["clean_text"])
个人和敏感信息
数据集中包含原作者信息(如果可能)。许多故事包含NSFW内容。
搜集汇总
数据集介绍

构建方式
在数字人文与自然语言处理领域,大规模文本数据集的构建对于研究网络文学与语言模型训练至关重要。Ficbook数据集通过自动化脚本从俄罗斯知名同人小说平台ficbook.net系统性地采集了约140万篇故事,涵盖了作者、标签、描述、点赞数及章节内容等结构化字段。数据收集过程持续进行,确保了内容的时效性与覆盖面,为俄语网络文学研究提供了丰富的原始语料。
特点
该数据集以俄语同人小说为核心,其显著特点在于包含多维度的元数据信息,如作者列表、故事标签、用户评分及章节级别的详细内容。每个故事均被细分为多个部分,每部分均提供原始文本与清洗后的文本,便于直接应用于文本分析任务。数据集规模庞大,超过百万条目,且涵盖多种内容评级与题材方向,为探索网络文学的语言风格与叙事结构提供了深度与广度。
使用方法
研究人员可通过Hugging Face的datasets库便捷加载此数据集,采用流式处理模式以高效访问海量数据。典型应用包括提取章节的清洗文本进行语言建模训练,或利用元数据字段如标签与评分进行内容分类与推荐系统研究。鉴于数据可能包含敏感内容,使用者需遵循伦理准则,在分析中妥善处理作者信息与成人内容,确保符合学术规范。
背景与挑战
背景概述
在数字文学与自然语言处理交叉领域,俄语同人小说数据集Ficbook Refined由研究者Ilya Gusev于近年构建并持续更新。该数据集源自俄罗斯知名同人创作平台ficbook.net,收录了约140万篇故事,主要语言为俄语,涵盖了丰富的叙事结构、作者元数据及用户互动信息。其核心研究问题聚焦于俄语生成模型的训练与评估,特别是在长文本叙事、风格迁移及多标签分类任务上,为俄语NLP社区提供了稀缺的大规模文学语料,显著推动了斯拉夫语系语言模型的进展。
当前挑战
该数据集旨在应对俄语叙事文本生成与分析的挑战,包括处理复杂的情节连贯性、多样的作者风格以及动态的用户反馈建模。在构建过程中,挑战主要源于数据采集的规模与质量平衡,需从非结构化网页中提取并清洗大量文本,同时保留作者、标签等元数据;此外,数据包含大量NSFW内容及作者个人信息,引发了隐私保护与伦理审查的难题,要求在处理过程中兼顾数据可用性与合规性。
常用场景
经典使用场景
在自然语言处理领域,俄语文学文本资源的稀缺性长期制约着相关模型的发展。Ficbook数据集以其庞大的俄语同人小说语料库,为俄语文本生成、风格迁移及叙事结构分析提供了丰富的实验素材。研究者常利用其多章节结构、元数据标签及用户互动指标,训练生成式模型以模拟特定作者或流派的写作风格,探索长篇叙事连贯性的建模方法。
实际应用
在产业应用层面,该数据集为俄语内容创作平台提供了智能辅助工具的开发基础。基于其训练的模型可应用于个性化故事推荐系统、自动化内容分级过滤机制及创意写作教育辅助程序。出版机构亦可借助其分析网络文学趋势,识别新兴创作主题与叙事模式,为跨媒体内容开发提供数据驱动的决策依据。
衍生相关工作
该数据集已催生多项俄语生成模型的创新研究,如基于注意力机制的长文本生成架构优化、跨语言风格迁移模型的对比实验等。部分工作聚焦于利用其丰富的元数据字段构建多任务学习框架,同步实现文本分类、情感分析和连贯性评估。另有研究将其与英语同人小说语料进行对比分析,探索文化差异在叙事模式中的语言学表征。
以上内容由遇见数据集搜集并总结生成



