recursal/SCP-RECURSAL
收藏数据集卡片 SCP-RECURSAL
数据集描述
SCP-RECURSAL 是一个包含 ~36.23 Million Tokens(llama-2-7b-chat-tokenizer)/ ~31.49 Million Tokens(RWKV Tokenizer)的 SCP 故事和系列的数据集。
- 策划者: Darok
- 资助者: Recursal.ai
- 共享者: KaraKaraWitch
- 语言(NLP): 英语
- 许可证: cc-by-sa-4.0
支持的任务和排行榜
主要用于语言建模。
语言
主要以英语编写。
抓取和过滤
通过 BeautifulSoup 抓取每个页面。过滤基于逐行进行,移除某些文本模式。文件 tools/clean.py 包含用于后处理故事的工具。tools 文件夹包含所有用于过滤和爬取维基的工具。
数据实例
以下是一个样本:
json {"text": "Project Codename: Olympia Project#: PRJOLM-000134 Clearance and File#: NPF-00051473 Head Researcher: Professor K.P. Crow Experiment Aims: To test the properties, capabilities and limitations of the subject. Subject is the product of Olympia Integration Experiment BETA, and is the ultimate product of the Olympia Project.<...TRUNCATED>"}
数据字段
只有一个字段(text),包含指向文章的字符串。没有额外的元数据。
许可证信息
SCP-Wiki 中的所有故事和系列广泛列在 CC-BY-SA-3.0 下。除了 1 张图片(SCP-173)。然而,我们不包括任何 SCP 项目的图片。因此,所有文本应符合 CC-BY-SA-3.0 许可证。
引用信息
@misc{scp-recursal, title = {SCP-Recursal}, author = {Darok, KaraKaraWitch, recursal.ai}, year = {2024}, howpublished = {url{https://huggingface.co/datasets/recursal/SCP-RECURSAL}}, }



