five

recursal/SCP-RECURSAL

收藏
Hugging Face2024-06-10 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/recursal/SCP-RECURSAL
下载链接
链接失效反馈
官方服务:
资源简介:
SCP-RECURSAL数据集是一个包含约3623万(llama-2-7b-chat-tokenizer)或3149万(RWKV Tokenizer)个令牌的文本数据集,内容来源于SCP Wiki网站(scp-wiki.wikidot.com)。数据集由Darok整理,KaraKaraWitch发布,并由Recursal.ai资助。数据集涵盖了从2008年到2022年的SCP Wiki中的故事和系列,通过BeautifulSoup选择器抓取页面内容,并过滤掉不必要的信息。数据集经过清洗,去除了作者信息、推荐阅读部分、隐藏列表按钮、评分和特殊字符,最终形成一个适合语言建模任务的SCP相关内容集合。数据集主要用于语言建模任务,支持的任务包括文本生成和掩码语言建模。数据集的语言为英语,遵循CC-BY-SA-3.0许可证。

SCP-RECURSAL数据集是一个包含约3623万(llama-2-7b-chat-tokenizer)或3149万(RWKV Tokenizer)个令牌的文本数据集,内容来源于SCP Wiki网站(scp-wiki.wikidot.com)。数据集由Darok整理,KaraKaraWitch发布,并由Recursal.ai资助。数据集涵盖了从2008年到2022年的SCP Wiki中的故事和系列,通过BeautifulSoup选择器抓取页面内容,并过滤掉不必要的信息。数据集经过清洗,去除了作者信息、推荐阅读部分、隐藏列表按钮、评分和特殊字符,最终形成一个适合语言建模任务的SCP相关内容集合。数据集主要用于语言建模任务,支持的任务包括文本生成和掩码语言建模。数据集的语言为英语,遵循CC-BY-SA-3.0许可证。
提供机构:
recursal
原始信息汇总

数据集卡片 SCP-RECURSAL

数据集描述

SCP-RECURSAL 是一个包含 ~36.23 Million Tokens(llama-2-7b-chat-tokenizer)/ ~31.49 Million Tokens(RWKV Tokenizer)的 SCP 故事和系列的数据集。

  • 策划者: Darok
  • 资助者: Recursal.ai
  • 共享者: KaraKaraWitch
  • 语言(NLP): 英语
  • 许可证: cc-by-sa-4.0

支持的任务和排行榜

主要用于语言建模。

语言

主要以英语编写。

抓取和过滤

通过 BeautifulSoup 抓取每个页面。过滤基于逐行进行,移除某些文本模式。文件 tools/clean.py 包含用于后处理故事的工具。tools 文件夹包含所有用于过滤和爬取维基的工具。

数据实例

以下是一个样本:

json {"text": "Project Codename: Olympia Project#: PRJOLM-000134 Clearance and File#: NPF-00051473 Head Researcher: Professor K.P. Crow Experiment Aims: To test the properties, capabilities and limitations of the subject. Subject is the product of Olympia Integration Experiment BETA, and is the ultimate product of the Olympia Project.<...TRUNCATED>"}

数据字段

只有一个字段(text),包含指向文章的字符串。没有额外的元数据。

许可证信息

SCP-Wiki 中的所有故事和系列广泛列在 CC-BY-SA-3.0 下。除了 1 张图片(SCP-173)。然而,我们不包括任何 SCP 项目的图片。因此,所有文本应符合 CC-BY-SA-3.0 许可证。

引用信息

@misc{scp-recursal, title = {SCP-Recursal}, author = {Darok, KaraKaraWitch, recursal.ai}, year = {2024}, howpublished = {url{https://huggingface.co/datasets/recursal/SCP-RECURSAL}}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作