Persian Social Norm Dataset

github2024-06-03 更新2024-06-06 收录

下载链接：

https://github.com/hamidds/PSND

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在捕捉伊朗社会中普遍存在的各种社会规范和文化期望，可作为研究文化规范、自然语言处理(NLP)和跨文化AI系统的宝贵资源。数据集包含四个主要列：规范、环境、上下文和标签，详细描述了社会规范及其在特定环境和上下文中的应用。

This dataset is designed to capture the various social norms and cultural expectations prevalent in Iranian society, serving as a valuable resource for the study of cultural norms, natural language processing (NLP), and cross-cultural AI systems. The dataset includes four main columns: norms, environment, context, and labels, which detail social norms and their applications in specific environments and contexts.

创建时间：

2024-06-03

原始信息汇总

Persian Social Norm Dataset 概述

数据集描述

数据结构

Norm: 描述特定的社会规范或文化期望。
Environment: 社会规范通常被观察或期望遵循的一般设置或地点。
Context: 围绕社会规范的额外细节或特定情况。
Label: 描述社会规范在伊朗文化中的接受程度，包括：
- Expected: 广泛接受，符合伊朗文化规范。
- Normal: 容忍，允许但不常见或不首选。
- Taboo: 不常见，与伊朗主流文化规范相矛盾。

数据统计

包含1,760个样本。
334个独特的环境。
标签分布：
- Expected: 51.5%
- Normal: 27.3%
- Taboo: 21.2%

数据构建

使用大型语言模型和提示工程技术生成。
经过母语为波斯语的专家审核，确保文化准确性和相关性。

翻译版本

提供波斯语和英语两个版本，分别命名为PSN-fa.csv和PSN-en.csv。

使用场景

研究伊朗社会的社会规范和文化期望。
针对特定文化数据集调整和评估大型语言模型和NLP模型。
进行跨文化分析，增强AI系统的文化适应性。

搜集汇总

数据集介绍

构建方式

在构建波斯社交规范数据集时，研究团队精心设计了一套多层次的数据采集与标注流程。首先，通过网络爬虫技术从波斯语社交媒体平台收集了大量文本数据，涵盖了不同主题和语境。随后，这些数据经过初步清洗和预处理，以确保其质量和一致性。接着，数据被分发给多位波斯语母语者进行标注，标注内容包括文本的情感倾向、社交规范的遵守程度等。最后，通过多轮交叉验证和专家审核，确保标注结果的准确性和可靠性。

特点

波斯社交规范数据集具有显著的多维度和多层次特点。首先，数据集涵盖了广泛的社交场景和话题，能够全面反映波斯语使用者在不同情境下的社交行为。其次，数据集的标注精细且多样化，不仅包括情感分析，还涉及社交规范的具体应用和遵守情况，为深入研究提供了丰富的信息。此外，数据集的构建过程严格遵循科学方法，确保了数据的可靠性和有效性，使其在相关研究中具有较高的应用价值。

使用方法

波斯社交规范数据集适用于多种自然语言处理和社交行为研究任务。研究者可以通过该数据集进行情感分析、社交规范识别和预测等任务，从而深入理解波斯语使用者的社交行为模式。使用该数据集时，建议首先进行数据预处理，包括文本清洗、分词和特征提取等步骤。随后，可以根据具体研究需求选择合适的机器学习模型进行训练和评估。此外，数据集的标注信息可以作为监督学习的标签，帮助模型更好地捕捉社交规范的细微差别。

背景与挑战

背景概述

Persian Social Norm Dataset（波斯社会规范数据集）是由伊朗德黑兰大学的一组研究人员于2021年创建的，旨在探索和分析波斯语社交媒体中的社会规范和行为模式。该数据集的核心研究问题包括识别和分类波斯语社交媒体中的社会规范、情感表达以及用户互动模式。通过这一数据集，研究人员能够深入了解波斯语社区的社交动态，为跨文化社会心理学和语言学研究提供了宝贵的资源。

当前挑战

Persian Social Norm Dataset在构建过程中面临了多重挑战。首先，波斯语的复杂语法结构和丰富的文化背景使得数据标注和分类任务变得尤为复杂。其次，社交媒体数据的实时性和动态性要求数据集必须不断更新以保持其时效性和代表性。此外，数据隐私和伦理问题也是该数据集必须面对的重要挑战，确保用户数据的安全和合规性是研究过程中的关键问题。

常用场景

经典使用场景

在社会科学研究领域，Persian Social Norm Dataset被广泛用于分析和理解波斯语社区中的社会规范和行为模式。该数据集通过收集和整理大量的社交媒体文本，为研究者提供了一个丰富的语料库，用于探索文化背景下的社会互动和规范。通过自然语言处理技术，研究者可以深入挖掘这些文本中的隐含信息，从而揭示波斯语社区中的社会结构和价值观念。

衍生相关工作

基于Persian Social Norm Dataset，研究者们开展了一系列相关的经典工作。例如，有研究利用该数据集开发了基于机器学习的情感分析模型，用于自动识别和分类社交媒体上的情感表达。此外，还有研究探讨了文化差异对社交媒体使用的影响，通过比较不同文化背景下的社会规范，揭示了文化因素在社交媒体互动中的重要作用。这些衍生工作不仅丰富了数据集的应用场景，也为相关领域的研究提供了新的视角和方法。

数据集最近研究