the-android-and-the-human

Hugging Face2024-06-25 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/gustavecortal/the-android-and-the-human

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含20,000个梦境的英文数据集，其中10,000个为真实梦境，来源于DreamBank，另外10,000个是通过Oneirogen语言模型生成的。该数据集可用于研究真实与生成梦境之间的差异，并可用于分类梦境是否为生成。数据集的设计灵感来自科幻作家Philip K. Dick关于人与机器环境相似性的思考。

This is an English dataset consisting of 20,000 dream samples. Of these, 10,000 are real dreams sourced from the DreamBank, while the remaining 10,000 are generated using the Oneirogen large language model. This dataset can be utilized to investigate the disparities between real and AI-generated dreams, as well as to develop classification models to determine whether a given dream is AI-generated. The design of this dataset is inspired by the reflections of science fiction writer Philip K. Dick on the similarity between humans and machine environments.

创建时间：

2024-06-12

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别:
- 文本分类
- 文本生成
语言: 英语
名称: The Android and The Machine
数据量: 10K<n<100K

数据内容

数据集由10,000条真实梦境和10,000条生成梦境组成。
真实梦境来源: DreamBank。
生成梦境使用模型: Oneirogen (0.5B, 1.5B, 7B)。

用途

用于区分真实梦境和生成梦境。
用于分类梦境叙述是生成还是真实的。

灵感来源

数据集灵感来源于科幻作家Philip K. Dick的演讲《The Android and The Human》。

搜集汇总

数据集介绍

构建方式

该数据集由10,000条真实梦境和10,000条生成梦境组成，旨在探索真实与生成梦境之间的差异。真实梦境来源于DreamBank数据库，而生成梦境则通过Oneirogen语言模型（包括0.5B、1.5B和7B版本）生成。Oneirogen是一种专门用于梦境生成的语言模型，其生成示例可在作者网站上查阅。数据集的构建过程充分利用了GENCI-IDRIS提供的HPC资源（Jean Zay超级计算机），确保了数据生成的高效性和准确性。

特点

该数据集的特点在于其独特的双源结构，即真实梦境与生成梦境的对比。真实梦境来自DreamBank，具有高度的自然性和多样性；而生成梦境则通过Oneirogen模型生成，展示了人工智能在梦境模拟方面的潜力。数据集不仅为研究梦境生成提供了丰富的素材，还为文本分类任务（如区分真实与生成梦境）提供了理想的数据基础。此外，数据集的规模适中（10K<n<100K），适合进行深入的机器学习和自然语言处理研究。

使用方法

该数据集可用于多种研究任务，尤其是文本分类和梦境生成分析。研究者可以利用该数据集训练模型，以区分真实梦境与生成梦境，或探索梦境生成模型的性能。此外，数据集还可用于心理学和认知科学领域的研究，帮助理解人类梦境与人工智能生成梦境之间的异同。使用该数据集时，建议结合Oneirogen模型的生成示例，以更好地理解生成梦境的特征。数据集的使用方法灵活，既可用于学术研究，也可用于开发基于梦境生成的应用程序。

背景与挑战

背景概述

The Android and The Human数据集由Gustave Cortal等人于2020年代初期创建，旨在探索真实梦境与生成梦境之间的差异。该数据集包含10,000个真实梦境和10,000个由Oneirogen语言模型生成的梦境，真实梦境来源于DreamBank数据库。该数据集的核心研究问题在于通过文本分类和生成任务，揭示人类梦境与机器生成梦境之间的本质区别。这一研究不仅推动了自然语言处理领域的发展，还为心理学和认知科学提供了新的研究视角，具有跨学科的影响力。

当前挑战

该数据集面临的主要挑战包括两个方面。首先，在领域问题层面，如何准确区分真实梦境与生成梦境是一个复杂的任务，因为梦境文本通常具有高度的抽象性和模糊性，传统的文本分类方法可能难以捕捉其细微差异。其次，在数据构建过程中，生成梦境的模型Oneirogen需要具备高度的创造性和语义连贯性，以确保生成的梦境在结构和内容上与真实梦境相似，这对模型的训练和优化提出了极高的要求。此外，数据集的构建还依赖于高性能计算资源，如Jean Zay超级计算机，这也增加了数据集的构建难度和成本。

常用场景

经典使用场景

在梦境研究领域，the-android-and-the-human数据集提供了一个独特的视角，通过对比真实梦境与生成梦境，研究者能够深入探讨人类梦境与人工智能生成内容之间的差异。这一数据集不仅为文本分类任务提供了丰富的素材，还为探索梦境生成模型的性能与局限性奠定了数据基础。

实际应用

在实际应用中，the-android-and-the-human数据集被广泛用于梦境生成模型的训练与评估。通过分析生成梦境与真实梦境的差异，开发者能够优化梦境生成算法，使其更贴近人类的梦境体验。此外，该数据集还被应用于心理健康领域，帮助心理医生通过分析梦境内容来评估患者的心理状态。

衍生相关工作

基于the-android-and-the-human数据集，研究者们开发了一系列梦境生成与分类模型。例如，Oneirogen模型的多个版本（0.5B、1.5B和7B）均在该数据集上进行了训练与优化。此外，该数据集还催生了许多关于梦境生成与分类的学术论文，推动了梦境生成技术的研究与应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集