five

DReAMy-lib/DreamBank-dreams

收藏
Hugging Face2023-02-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DReAMy-lib/DreamBank-dreams
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: dreams dtype: string - name: series dtype: string - name: description dtype: string splits: - name: train num_bytes: 27263345 num_examples: 29345 download_size: 15525739 dataset_size: 27263345 license: apache-2.0 task_categories: - text-generation language: - en - de size_categories: - 10K<n<100K --- # DreamBank - Dreams The dataset is a collection of ~30k textual reports of dreams, originally scraped from the [DreamBank](https://www.dreambank.net/) databased by [`mattbierner`](https://github.com/mattbierner/DreamScrape). The DreamBank reports are divided into `series`, which are collections of individuals or research projects/groups that have gathered the dreams. The vast majority of the series are in the English language, but a small part of the are in German. These series are indicated by the presence of `.de` in their name. ## Content The dataset revolves around three main features: - `dreams`: the content of each dream report. - `series`: the series to which a report belongs - `description`: a brief description of the `series` ## Series distribution The following is a summary of (alphabetically ordered) DreamBank's series together with their total amount of dream reports. - alta: 422 - angie: 48 - arlie: 212 - b: 3114 - b-baseline: 250 - b2: 1138 - bay_area_girls_456: 234 - bay_area_girls_789: 154 - bea1: 223 - bea2: 63 - blind-f: 238 - blind-m: 143 - bosnak: 53 - chris: 100 - chuck: 75 - dahlia: 24 - david: 166 - dorothea: 899 - ed: 143 - edna: 19 - elizabeth: 1707 - emma: 1221 - emmas_husband: 72 - esther: 110 - german-f.de: 397 - german-m.de: 140 - hall_female: 681 - jasmine1: 39 - jasmine2: 269 - jasmine3: 259 - jasmine4: 94 - jeff: 87 - joan: 42 - kenneth: 2021 - lawrence: 206 - mack: 38 - madeline1-hs: 98 - madeline2-dorms: 186 - madeline3-offcampus: 348 - madeline4-postgrad: 294 - mark: 23 - melissa: 89 - melora: 211 - melvin: 128 - merri: 315 - miami-home: 171 - miami-lab: 274 - midwest_teens-f: 111 - midwest_teens-m: 83 - nancy: 44 - natural_scientist: 234 - norman: 1235 - norms-f: 490 - norms-m: 491 - pegasus: 1093 - peru-f: 381 - peru-m: 384 - phil1: 106 - phil2: 220 - phil3: 180 - physiologist: 86 - ringo: 16 - samantha: 63 - seventh_graders: 69 - toby: 33 - tom: 27 - ucsc_women: 81 - vickie: 35 - vietnam_vet: 98 - vonuslar.de: 6094 - wedding: 65 - west_coast_teens: 89 - zurich-f.de: 164 - zurich-m.de: 135

dataset_info: 特征: - 名称: dreams 数据类型: 字符串(string) - 名称: series 数据类型: 字符串(string) - 名称: description 数据类型: 字符串(string) 划分集: - 名称: 训练集(train) 字节数: 27263345 样本数: 29345 下载大小: 15525739 数据集总字节数: 27263345 许可协议: Apache-2.0 任务类别: - 文本生成(text-generation) 语言: - 英语(en) - 德语(de) 样本规模类别: - 10K<n<100K --- # 梦境银行(DreamBank)数据集 本数据集收录了约3万条梦境文本报告,原始数据从[梦境银行(DreamBank)](https://www.dreambank.net/)数据库中爬取,爬取脚本由[`mattbierner`](https://github.com/mattbierner/DreamScrape)开发。梦境银行的报告按`series`(系列)进行分组,每个系列对应一位报告者、一项研究或一组研究人员所收集的梦境文本。绝大多数系列采用英语撰写,仅有少数系列使用德语,这类德语系列的名称中包含`.de`后缀。 ## 数据内容 本数据集包含三类核心特征: - `dreams`:单条梦境报告的具体文本内容 - `series`:该梦境报告所属的系列名称 - `description`:对应`series`的简要说明文档 ## 系列分布情况 以下为按字母顺序排序的梦境银行系列及其对应的梦境报告数量统计: - alta: 422 - angie: 48 - arlie: 212 - b: 3114 - b-baseline: 250 - b2: 1138 - bay_area_girls_456: 234 - bay_area_girls_789: 154 - bea1: 223 - bea2: 63 - blind-f: 238 - blind-m: 143 - bosnak: 53 - chris: 100 - chuck: 75 - dahlia: 24 - david: 166 - dorothea: 899 - ed: 143 - edna: 19 - elizabeth: 1707 - emma: 1221 - emmas_husband: 72 - esther: 110 - german-f.de: 397 - german-m.de: 140 - hall_female: 681 - jasmine1: 39 - jasmine2: 269 - jasmine3: 259 - jasmine4: 94 - jeff: 87 - joan: 42 - kenneth: 2021 - lawrence: 206 - mack: 38 - madeline1-hs: 98 - madeline2-dorms: 186 - madeline3-offcampus: 348 - madeline4-postgrad: 294 - mark: 23 - melissa: 89 - melora: 211 - melvin: 128 - merri: 315 - miami-home: 171 - miami-lab: 274 - midwest_teens-f: 111 - midwest_teens-m: 83 - nancy: 44 - natural_scientist: 234 - norman: 1235 - norms-f: 490 - norms-m: 491 - pegasus: 1093 - peru-f: 381 - peru-m: 384 - phil1: 106 - phil2: 220 - phil3: 180 - physiologist: 86 - ringo: 16 - samantha: 63 - seventh_graders: 69 - toby: 33 - tom: 27 - ucsc_women: 81 - vickie: 35 - vietnam_vet: 98 - vonuslar.de: 6094 - wedding: 65 - west_coast_teens: 89 - zurich-f.de: 164 - zurich-m.de: 135
提供机构:
DReAMy-lib
原始信息汇总

数据集概述

基本信息

  • 名称: DreamBank - Dreams
  • 大小: 27,263,345字节
  • 下载大小: 15,525,739字节
  • 训练集大小: 27,263,345字节
  • 训练集样本数: 29,345
  • 许可: Apache-2.0
  • 任务类别: 文本生成
  • 语言: 英语, 德语
  • 大小类别: 10K<n<100K

数据集特征

  • dreams: 每个梦境报告的内容,数据类型为字符串。
  • series: 报告所属的系列,数据类型为字符串。
  • description: 系列的简短描述,数据类型为字符串。

系列分布

  • 数据集包含多个系列,每个系列有不同数量的梦境报告。系列名称及其报告数量如下:
    • alta: 422
    • angie: 48
    • arlie: 212
    • b: 3114
    • b-baseline: 250
    • b2: 1138
    • bay_area_girls_456: 234
    • bay_area_girls_789: 154
    • bea1: 223
    • bea2: 63
    • blind-f: 238
    • blind-m: 143
    • bosnak: 53
    • chris: 100
    • chuck: 75
    • dahlia: 24
    • david: 166
    • dorothea: 899
    • ed: 143
    • edna: 19
    • elizabeth: 1707
    • emma: 1221
    • emmas_husband: 72
    • esther: 110
    • german-f.de: 397
    • german-m.de: 140
    • hall_female: 681
    • jasmine1: 39
    • jasmine2: 269
    • jasmine3: 259
    • jasmine4: 94
    • jeff: 87
    • joan: 42
    • kenneth: 2021
    • lawrence: 206
    • mack: 38
    • madeline1-hs: 98
    • madeline2-dorms: 186
    • madeline3-offcampus: 348
    • madeline4-postgrad: 294
    • mark: 23
    • melissa: 89
    • melora: 211
    • melvin: 128
    • merri: 315
    • miami-home: 171
    • miami-lab: 274
    • midwest_teens-f: 111
    • midwest_teens-m: 83
    • nancy: 44
    • natural_scientist: 234
    • norman: 1235
    • norms-f: 490
    • norms-m: 491
    • pegasus: 1093
    • peru-f: 381
    • peru-m: 384
    • phil1: 106
    • phil2: 220
    • phil3: 180
    • physiologist: 86
    • ringo: 16
    • samantha: 63
    • seventh_graders: 69
    • toby: 33
    • tom: 27
    • ucsc_women: 81
    • vickie: 35
    • vietnam_vet: 98
    • vonuslar.de: 6094
    • wedding: 65
    • west_coast_teens: 89
    • zurich-f.de: 164
    • zurich-m.de: 135
搜集汇总
数据集介绍
main_image_url
构建方式
在梦境研究领域,DreamBank-dreams数据集通过系统化的网络爬取技术构建而成。该数据集源自DreamBank在线数据库,由mattbierner开发的DreamScrape工具进行自动化采集,确保了原始数据的完整性与真实性。采集过程聚焦于文本形式的梦境报告,涵盖了约30,000条记录,并依据系列归属进行结构化整理。数据主要来源于个体或研究项目组提交的梦境集合,其中绝大多数为英文内容,少数德语报告通过系列名称中的.de标识予以区分。
使用方法
在应用层面,该数据集主要服务于文本生成任务。研究者可基于梦境文本训练语言模型,探索叙事结构或情感模式;通过系列字段可实现群体或个体的纵向分析,例如追踪特定人物梦境内容的时间演变。德语子集为跨语言比较提供了可能。使用前需注意数据清洗,去除可能的个人标识信息以符合伦理规范。数据集以标准分割格式提供,可直接加载至主流机器学习框架进行后续处理与分析。
背景与挑战
背景概述
梦境研究作为心理学与认知科学交叉领域的重要分支,长期致力于探索人类潜意识活动的规律与意义。DReAMy-lib/DreamBank-dreams数据集由研究团队基于DreamBank数据库构建,收录了约三万条梦境文本报告,涵盖多个独立系列,主要语言为英语与德语。该数据集的创建旨在为梦境内容的量化分析、情感模式识别及跨文化比较提供结构化资源,推动了计算心理学与自然语言处理技术在主观体验研究中的应用。
当前挑战
梦境数据集的核心挑战在于其文本内容的高度主观性与隐喻性,这为自动化语义解析与情感分类带来了显著困难。构建过程中,数据来源的异构性——如不同系列间记录规范、语言风格及文化背景的差异——增加了数据清洗与标准化的复杂度。此外,梦境报告常包含碎片化叙事与非逻辑结构,要求模型具备深层语境理解能力,以克服表面文本与潜在心理状态之间的映射障碍。
常用场景
经典使用场景
在梦境研究领域,DreamBank数据集作为大规模文本化梦境报告的集合,为探索人类潜意识活动提供了宝贵资源。其经典使用场景集中于自然语言处理与认知科学的交叉研究,通过分析近三万条梦境文本,研究者能够深入挖掘梦境内容的语言模式、情感倾向及叙事结构。这些分析常借助主题建模、情感分析或序列生成技术,揭示梦境与个体心理状态之间的潜在关联,为理解睡眠中的思维过程奠定数据基础。
解决学术问题
该数据集有效解决了梦境研究中长期存在的数据稀缺与标准化难题。通过整合来自不同系列(如个体案例或研究项目)的梦境报告,它支持跨文化、跨性别及跨年龄的对比分析,助力探讨梦境内容的普遍性与特异性。在学术层面,DreamBank促进了梦境与记忆整合、情绪调节及创伤后应激等心理机制的实证研究,同时为计算语言学领域提供了独特的语料库,推动梦境自动生成、语义解析等前沿课题的发展。
实际应用
在实际应用中,DreamBank数据集为心理健康评估与临床干预提供了创新工具。心理治疗师可借助梦境内容分析,辅助诊断焦虑、抑郁等情绪障碍,并设计个性化的梦境日记疗法。此外,该数据集在创意产业中亦有所贡献,例如为文学创作、游戏叙事或艺术生成提供灵感来源,通过机器学习模型模拟人类梦境的荒诞性与象征性,丰富数字内容的表达维度。
数据集最近研究
最新研究方向
在梦境分析与自然语言处理的交叉领域,DreamBank数据集正推动前沿研究聚焦于梦境文本的生成与理解模型构建。研究者利用其大规模梦境报告,探索梦境内容的语义模式识别、情感倾向分析及跨文化比较,尤其关注德语与英语梦境的语言差异。该数据集为认知科学和心理学提供了量化分析基础,助力开发梦境辅助诊断工具,并在生成式人工智能中模拟人类潜意识叙事,成为连接主观体验与计算模型的关键桥梁。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作