Sci-Fi Corpus

github2023-07-12 更新2024-05-31 收录

下载链接：

https://github.com/marimeireles/scifi-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于训练大型语言模型的科幻数据集，包含多种来源的文本数据，格式为JSON，用于模拟和改进语言模型的输出。数据集包含约3GB的数据，支持自由修改和格式调整，旨在帮助研究人员和开发者进行语言模型的微调。

This is a science fiction dataset designed for training large language models, encompassing text data from various sources in JSON format, aimed at simulating and enhancing the output of language models. The dataset comprises approximately 3GB of data, supports free modification and format adjustment, and is intended to assist researchers and developers in fine-tuning language models.

创建时间：

2023-07-12

原始信息汇总

数据集概述

数据集名称

名称: scifi-corpus
许可证: GPLv3

数据集内容

格式: JSON文件
示例结构: json { "instruction": "...", "input": "", "output": "..." }
数据量: 约3GB
生成方式: 使用语言模型（如GPT by OpenAI, Falcon, Llama）生成指令，基于输出内容。
输出限制: 500字符

数据集来源

已验证来源:
- reddit: r/cyberpunk_stories
- omdb
- gutenberg
待完成脚本来源:
- reddit: r/shortscifistories
- aooo
- 特定维基: KOTOR, SW, Star Trek
- isfdb
- SciFi Stories Text Corpus
- SF Corpus

如何引用

作者: Meireles, M.
年份: 2023
ORCID: 0000-0001-9227-9798
数据集链接: https://huggingface.co/datasets/elektra/scifi-corpus

搜集汇总

数据集介绍

构建方式

Sci-Fi Corpus数据集的构建基于多种来源的科幻文本，包括Reddit社区、OMDB、Gutenberg等平台。数据集以JSON格式存储，每条记录包含指令、输入和输出三个字段。指令部分由语言模型（如GPT、Falcon、Llama等）生成，输出部分则来自上述来源的文本片段，且长度限制在500字符以内。数据集目前包含约3GB的数据，旨在为大型语言模型的微调提供支持。

特点

Sci-Fi Corpus数据集的特点在于其多样化的文本来源和结构化的JSON格式。每条记录中的指令部分由先进的自然语言模型生成，确保了指令的多样性和复杂性。输出部分则涵盖了广泛的科幻主题，从经典文学到现代短篇故事，内容丰富多彩。数据集的设计与当前主流语言模型的微调需求高度契合，用户可以根据需要对数据进行修改和重新格式化。

使用方法

Sci-Fi Corpus数据集主要用于大型语言模型的微调任务。用户可以通过Hugging Face平台访问数据集，并下载JSON格式的文件。数据集的结构与当前语言模型的输入输出格式一致，便于直接应用于模型训练。此外，用户还可以根据需求对数据进行修改，或参与数据集的扩展和改进工作。数据集的开放性和灵活性使其成为科幻文本处理和模型训练的理想选择。

背景与挑战

背景概述

Sci-Fi Corpus数据集由Marina Meireles于2023年创建，旨在为大型语言模型（LLMs）的微调提供高质量的科幻文本数据。该数据集以GPLv3许可证发布，允许用户自由使用和修改，前提是遵循相同的开源协议。数据集的核心内容来源于多个科幻故事平台，包括Reddit、Gutenberg、OMDB等，涵盖了丰富的科幻叙事风格和主题。Sci-Fi Corpus的发布为自然语言处理领域的研究者提供了一个独特的资源，特别是在科幻文本生成和理解任务中，具有重要的研究价值和应用潜力。

当前挑战

Sci-Fi Corpus数据集在构建过程中面临多重挑战。首先，数据来源的多样性和复杂性使得数据清洗和格式统一成为一项艰巨任务。其次，尽管数据集已经包含了大量文本，但部分指令仍不完整，影响了数据的完整性和一致性。此外，数据集的生成依赖于多种语言模型（如GPT、Falcon、Llama等），这可能导致生成文本的质量和风格存在差异。最后，数据集的扩展和维护需要持续的社区贡献和技术支持，以确保其能够适应不断变化的自然语言处理需求。这些挑战不仅影响了数据集的构建过程，也对后续的研究和应用提出了更高的要求。

常用场景

经典使用场景

Sci-Fi Corpus数据集主要用于训练和微调大型语言模型（LLMs），特别是在科幻文学领域。其独特的JSON格式数据，包含指令、输入和输出字段，使得它非常适合用于生成式模型的训练，帮助模型理解和生成科幻题材的文本内容。

衍生相关工作

基于Sci-Fi Corpus，许多经典工作得以衍生，例如科幻文本生成模型的优化、跨语言科幻文本翻译系统的开发，以及科幻主题对话系统的构建。这些工作不仅推动了科幻文学与AI技术的结合，也为相关领域的研究提供了新的思路和工具。

数据集最近研究