igorktech/scp_ru
收藏Hugging Face2024-01-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/igorktech/scp_ru
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从SCP Foundation网站抓取的信息集合,SCP Foundation是一个虚构的研究组织,以其基于网络的协作创意项目而闻名。具体而言,该数据集聚焦于俄语评分的SCP标题,提供了与各种SCP对象相关的内容和社区评分的见解。数据集适用于文本生成和文本分类任务,语言为俄语,标签为not-for-all-audiences,规模在1K到10K之间。数据集采用Creative Commons Attribution-ShareAlike 3.0 Unported License (CC-BY-SA 3.0)许可,要求任何基于该数据集的衍生作品必须继承相同的许可并包含适当的归属。
This dataset is a collection of information scraped from the SCP Foundation website, focusing on rated SCP titles in Russian and offering insights into community ratings associated with various SCP objects. The SCP Foundation is a fictional research organization known for its collaborative web-based creative project, featuring extensive articles on containment procedures for anomalous objects and artistic narratives within its universe.
提供机构:
igorktech
原始信息汇总
SCP Foundation Texts 数据集概述
概览
该数据集是从SCP基金会网站上抓取的信息集合,专注于俄语评级的SCP标题,提供了与各种SCP对象相关的社区评级洞察。
数据集内容
- 范围: 俄语评级的SCP标题
- 洞察: 与各种SCP对象相关的社区评级
许可规则
所有基于此数据集的衍生项目均在Creative Commons Attribution-ShareAlike 3.0 Unported License(CC-BY-SA 3.0)下发布,要求任何新作品继承相同许可并包含对SCP基金会网站和原始作者的适当归属。
许可摘要
- 许可类型: Creative Commons Attribution-ShareAlike 3.0 Unported(CC-BY-SA 3.0)
- 许可详情: CC-BY-SA 3.0
- 来源归属: 确保包含对SCP基金会网站和原始作者的链接及认可。
贡献者
引用
@MISC{igoktech/scp_ru, author = {Nikolas Ivanov, Igor Kuzmin}, title = {SCP Foundation Rated Titles (Russian)}, url = {https://huggingface.co/datasets/igoktech/scp_ru}, year = 2024 }
搜集汇总
数据集介绍

构建方式
在虚构文学与网络协作创作的交汇领域,该数据集通过系统化网络爬取技术构建而成。其核心内容源自SCP基金会网站,这是一个以协作式网络创意项目闻名的虚构研究组织。构建过程聚焦于筛选并收录俄语评级的SCP条目标题,同时整合了社区对各类异常对象的评价数据,确保了数据来源的规范性与主题一致性。
特点
该数据集以俄语评级的SCP标题为主体,呈现出独特的文化语言特征与社区互动维度。其内容紧密围绕虚构异常对象的描述与评级,不仅反映了SCP宇宙的叙事框架,更通过社区评分机制揭示了受众对不同创意内容的接受程度。数据集规模适中,介于千至万条记录之间,兼具深度与可处理性,为俄语虚构文本分析提供了专门化资源。
使用方法
在文本生成与分类任务中,该数据集可作为训练俄语语言模型的特定领域语料。研究者可依据CC-BY-SA 3.0许可协议,在注明原始出处的前提下,将其用于分析虚构叙事结构、社区评价模式或跨语言创意内容比较。通过Hugging Face平台的标准数据加载接口,用户能够便捷地访问并整合这些经过结构化的俄语虚构文本资源。
背景与挑战
背景概述
在数字人文与计算语言学交叉领域,虚构叙事文本的收集与分析逐渐成为研究热点。igorktech/scp_ru数据集于2024年由研究人员Nikolas Ivanov与Igor Kuzmin构建,专注于俄语版SCP基金会网站中经过社区评级的SCP标题文本。SCP基金会作为一个著名的协作式网络创意项目,以其庞大的异常物体收容文档体系而闻名。该数据集的核心研究问题在于探索俄语语境下虚构叙事的文本特征与社区评价模式,为多语言文本生成与分类任务提供了独特的语料资源,对推动跨文化虚构内容分析与自然语言处理技术的融合具有潜在影响力。
当前挑战
该数据集旨在解决虚构叙事文本的多语言分类与生成任务中的挑战,具体包括如何从非结构化、风格多变的创意写作中提取可量化的文本特征,以及如何建模社区评级与文本内容之间的复杂关联。在构建过程中,研究者面临数据采集与处理的难题:需从动态更新的协作式网站中精准爬取俄语SCP标题并关联其评级信息,同时确保符合CC-BY-SA 3.0许可的衍生作品授权要求。此外,俄语文本的语法复杂性与叙事特有的术语体系,也为数据清洗与标注带来了额外的语言学挑战。
常用场景
经典使用场景
在自然语言处理领域,igorktech/scp_ru数据集为俄语文本生成与分类任务提供了独特的语料资源。该数据集源自虚构的SCP基金会项目,收录了经过社区评级的俄语SCP标题,其内容兼具叙事性与结构性,常被用于训练和评估模型在创意文本生成、风格模仿以及多标签分类方面的能力。研究者通过分析标题与评级间的关联,能够深入探索文本特征与社区反馈之间的复杂映射关系。
解决学术问题
该数据集有效应对了俄语创意文本资源相对稀缺的学术挑战,为跨语言叙事生成和社区驱动的内容评估研究提供了实证基础。通过提供带有明确评级标签的俄语SCP标题,它助力于解决文本质量自动评估、读者偏好建模以及多模态叙事结构分析等问题。其存在不仅丰富了斯拉夫语系的NLP资源生态,更推动了虚构叙事计算语言学这一交叉领域的发展,为理解在线协作创作社区的动态提供了数据支撑。
衍生相关工作
围绕该数据集,已衍生出若干探索性研究。例如,有工作专注于利用其评级标签训练俄语文本质量预测模型,以自动化识别具有吸引力的叙事标题。另一些研究则将其作为基准,用于评估跨语言预训练模型在俄语创意文本生成任务上的迁移性能。此外,结合SCP基金会庞大的元叙事体系,该数据集也催生了关于虚构宇宙知识图谱构建与叙事连贯性分析的相关探索,拓展了计算叙事学的研究边界。
以上内容由遇见数据集搜集并总结生成



