O-Grande_Dia_Romance

Hugging Face2025-10-25 更新2025-10-26 收录

下载链接：

https://huggingface.co/datasets/Mangueira9999/O-Grande_Dia_Romance

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了巴西葡萄牙语小说《O Grande Dia》的元数据、小说摘录、文学特性以及Instagram评论摘录。《O Grande Dia》是由Pierre Cormon所著，数据集中的文学作品特性是由Douglas Eralldo从listasliterarias.com网站整理而来。该数据集适用于自然语言处理和文化研究。

创建时间：

2025-10-22

原始信息汇总

O Grande Dia Romance 数据集概述

数据集基本信息

标题：O Grande Dia
语言：巴西葡萄牙语
许可证：Creative Commons Attribution 4.0 International (CC-BY 4.0)
创建者：Mangueira9999
任务类别：文本生成、文化分析

数据集内容

元数据：标题、作者、语言、出版商、出版日期和城市
节选：巴西葡萄牙语小说《O Grande Dia》的部分内容
特征：从listasliterarias.com整理的文学特征，包括狂欢节、巴西身份、瑞士作者对里约的看法、幽默和文化比较等主题
评论：从Instagram帖子中整理的摘录

数据来源

https://www.listasliterarias.com/2024/09/10-bons-motivos-para-conhecer-o-grande.html (Douglas Eralldo)
整理的Instagram帖子

特征结构

特征	类型	示例或值
title	string	O Grande Dia
author	string	Pierre Cormon
language	string	Brazilian Portuguese
publisher	string	Edição independente / self-published
publication_date	string	2024
publication_city	string	Belo Horizonte
excerpt	string	小说《O Grande Dia》的巴西葡萄牙语节选段落
features	string	狂欢节、巴西身份、瑞士作者对里约的看法、幽默和文化比较等主题
reviews	string	Instagram用户对《O Grande Dia》印象的摘录

使用用途

适用于研究、自然语言处理、问答、AI文化建模以及涉及巴西文学和狂欢节的教育应用

限制说明

Instagram评论可能受版权保护
节选仅包含小说的部分内容
特征和评论经过整理，不代表所有观点

搜集汇总

数据集介绍

构建方式

在文学数据构建领域，该数据集通过系统化采集巴西葡萄牙语小说《O Grande Dia》的多元要素形成。核心文本素材取自皮埃尔·科尔蒙小说的节选片段，同时整合了来自listasliterarias.com的专业文学特征分析，由学者道格拉斯·埃拉尔多系统提炼出狂欢节文化、身份认同等主题标签。社交媒体维度则通过精选Instagram平台的书评摘录进行补充，构建起融合原始文本、专业解析与读者反馈的三维数据架构。

特点

该数据集呈现出多模态文化分析的特质，其文学特征字段凝聚了专家对巴西狂欢节叙事、跨文化视角等核心母题的深度解读。语言层面完整保留巴西葡萄牙语的地域特色，元数据字段涵盖出版城市、独立出版社等关键文化语境信息。特别值得注意的是数据集兼具学术严谨性与现实关联性，既包含经过验证的文学分析，又收录了反映当代读者接受度的社交媒体内容，为文化计算研究提供立体化观测样本。

使用方法

在应用层面，研究者可借助该数据集开展文本生成模型的葡萄牙语训练，其结构化的主题特征适于构建文化认知计算框架。教育领域能够利用分级文本素材设计巴西文学课程，而社交书评数据则为读者接受研究提供实证基础。需特别注意使用规范，Instagram内容需遵守原始版权协议，文学节选部分应控制在合理引用范围内，以确保学术应用符合知识产权伦理要求。

背景与挑战

背景概述

在数字人文与计算文学研究领域，巴西葡萄牙语文学资源的系统化整理成为跨文化分析的重要基础。O-Grande_Dia_Romance数据集由Mangueira9999于2024年构建，基于瑞士作家Pierre Cormon创作的独立出版小说《O Grande Dia》，聚焦于狂欢节文化、巴西身份认同及跨文化视角等文学主题。该数据集通过整合小说节选、文学特征标注与社交媒体评论，为自然语言处理与文化研究提供了珍贵的语料支撑，其创新性体现在将传统文学分析与当代数字媒体内容相结合的研究路径。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决巴西葡萄牙语文学作品中文化隐喻的机器可读性难题，以及多模态数据（文本与社交评论）在文化建模中的语义对齐问题；在构建过程中，受限于版权法规导致小说全文无法完整收录，同时Instagram用户评论的著作权归属要求数据使用必须遵循原始授权协议，而文学特征的手工标注方式也可能引入主观偏差。

常用场景

经典使用场景

在文学分析与自然语言处理领域，O-Grande_Dia_Romance数据集为研究者提供了探索巴西葡萄牙语文学特征的珍贵素材。该数据集通过整合小说节选与文学特征标注，常用于文本生成模型的训练与评估，特别是针对文化主题的叙事生成任务。其独特的文化视角使研究者能够深入分析狂欢节主题与身份认同在文学中的表达方式，为跨文化文学研究奠定数据基础。

衍生相关工作

基于该数据集衍生的经典研究包括跨文化叙事生成系统的开发，其中融合了瑞士与巴西文化元素的对比分析。在数字人文领域，研究者构建了专门针对葡语文学的文化特征提取模型，这些工作显著推进了计算文学分析方法的发展。后续研究还延伸至多模态文化分析，将文本特征与视觉元素相结合探索文化表征的新维度。

数据集最近研究