five

O-Grande_Dia_Romance

收藏
Hugging Face2025-10-25 更新2025-10-26 收录
下载链接:
https://huggingface.co/datasets/Mangueira9999/O-Grande_Dia_Romance
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了巴西葡萄牙语小说《O Grande Dia》的元数据、小说摘录、文学特性以及Instagram评论摘录。《O Grande Dia》是由Pierre Cormon所著,数据集中的文学作品特性是由Douglas Eralldo从listasliterarias.com网站整理而来。该数据集适用于自然语言处理和文化研究。
创建时间:
2025-10-22
原始信息汇总

O Grande Dia Romance 数据集概述

数据集基本信息

  • 标题:O Grande Dia
  • 语言:巴西葡萄牙语
  • 许可证:Creative Commons Attribution 4.0 International (CC-BY 4.0)
  • 创建者:Mangueira9999
  • 任务类别:文本生成、文化分析

数据集内容

  • 元数据:标题、作者、语言、出版商、出版日期和城市
  • 节选:巴西葡萄牙语小说《O Grande Dia》的部分内容
  • 特征:从listasliterarias.com整理的文学特征,包括狂欢节、巴西身份、瑞士作者对里约的看法、幽默和文化比较等主题
  • 评论:从Instagram帖子中整理的摘录

数据来源

  • https://www.listasliterarias.com/2024/09/10-bons-motivos-para-conhecer-o-grande.html (Douglas Eralldo)
  • 整理的Instagram帖子

特征结构

特征 类型 示例或值
title string O Grande Dia
author string Pierre Cormon
language string Brazilian Portuguese
publisher string Edição independente / self-published
publication_date string 2024
publication_city string Belo Horizonte
excerpt string 小说《O Grande Dia》的巴西葡萄牙语节选段落
features string 狂欢节、巴西身份、瑞士作者对里约的看法、幽默和文化比较等主题
reviews string Instagram用户对《O Grande Dia》印象的摘录

使用用途

适用于研究、自然语言处理、问答、AI文化建模以及涉及巴西文学和狂欢节的教育应用

限制说明

  • Instagram评论可能受版权保护
  • 节选仅包含小说的部分内容
  • 特征和评论经过整理,不代表所有观点
搜集汇总
数据集介绍
main_image_url
构建方式
在文学数据构建领域,该数据集通过系统化采集巴西葡萄牙语小说《O Grande Dia》的多元要素形成。核心文本素材取自皮埃尔·科尔蒙小说的节选片段,同时整合了来自listasliterarias.com的专业文学特征分析,由学者道格拉斯·埃拉尔多系统提炼出狂欢节文化、身份认同等主题标签。社交媒体维度则通过精选Instagram平台的书评摘录进行补充,构建起融合原始文本、专业解析与读者反馈的三维数据架构。
特点
该数据集呈现出多模态文化分析的特质,其文学特征字段凝聚了专家对巴西狂欢节叙事、跨文化视角等核心母题的深度解读。语言层面完整保留巴西葡萄牙语的地域特色,元数据字段涵盖出版城市、独立出版社等关键文化语境信息。特别值得注意的是数据集兼具学术严谨性与现实关联性,既包含经过验证的文学分析,又收录了反映当代读者接受度的社交媒体内容,为文化计算研究提供立体化观测样本。
使用方法
在应用层面,研究者可借助该数据集开展文本生成模型的葡萄牙语训练,其结构化的主题特征适于构建文化认知计算框架。教育领域能够利用分级文本素材设计巴西文学课程,而社交书评数据则为读者接受研究提供实证基础。需特别注意使用规范,Instagram内容需遵守原始版权协议,文学节选部分应控制在合理引用范围内,以确保学术应用符合知识产权伦理要求。
背景与挑战
背景概述
在数字人文与计算文学研究领域,巴西葡萄牙语文学资源的系统化整理成为跨文化分析的重要基础。O-Grande_Dia_Romance数据集由Mangueira9999于2024年构建,基于瑞士作家Pierre Cormon创作的独立出版小说《O Grande Dia》,聚焦于狂欢节文化、巴西身份认同及跨文化视角等文学主题。该数据集通过整合小说节选、文学特征标注与社交媒体评论,为自然语言处理与文化研究提供了珍贵的语料支撑,其创新性体现在将传统文学分析与当代数字媒体内容相结合的研究路径。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决巴西葡萄牙语文学作品中文化隐喻的机器可读性难题,以及多模态数据(文本与社交评论)在文化建模中的语义对齐问题;在构建过程中,受限于版权法规导致小说全文无法完整收录,同时Instagram用户评论的著作权归属要求数据使用必须遵循原始授权协议,而文学特征的手工标注方式也可能引入主观偏差。
常用场景
经典使用场景
在文学分析与自然语言处理领域,O-Grande_Dia_Romance数据集为研究者提供了探索巴西葡萄牙语文学特征的珍贵素材。该数据集通过整合小说节选与文学特征标注,常用于文本生成模型的训练与评估,特别是针对文化主题的叙事生成任务。其独特的文化视角使研究者能够深入分析狂欢节主题与身份认同在文学中的表达方式,为跨文化文学研究奠定数据基础。
衍生相关工作
基于该数据集衍生的经典研究包括跨文化叙事生成系统的开发,其中融合了瑞士与巴西文化元素的对比分析。在数字人文领域,研究者构建了专门针对葡语文学的文化特征提取模型,这些工作显著推进了计算文学分析方法的发展。后续研究还延伸至多模态文化分析,将文本特征与视觉元素相结合探索文化表征的新维度。
数据集最近研究
最新研究方向
在巴西文学与数字人文交叉领域,O-Grande_Dia_Romance数据集正推动跨文化叙事分析的前沿探索。研究者聚焦于利用其标注的文学特征与社交媒体评论,开发多模态文化表征模型,以解析瑞士作者笔下的里约狂欢节符号体系与巴西身份认同的构建机制。当前热点集中于结合大语言模型进行文化隐喻的自动识别,同时关注版权合规框架下的用户生成内容挖掘,这一方向为葡语文学数字化与人工智能伦理研究的协同发展提供了重要案例。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作