five

PERCUL

收藏
arXiv2025-02-11 更新2025-02-13 收录
下载链接:
https://huggingface.co/datasets/teias-ai/percul
下载链接
链接失效反馈
官方服务:
资源简介:
PERCUL是一个由伊朗多所高校和研究机构合作构建的文化评估数据集,旨在评估大型语言模型对波斯文化的敏感性。该数据集包含592个基于故事的、含有文化细微差别的多项选择题,覆盖了波斯文化的多个方面。数据集通过本土波斯语注释者的输入,确保了文化真实性和准确性,避免了使用翻译作为捷径。数据集的构建过程包括确定文化类别、生成种子话题和元数据、使用LLM生成故事线、人工校正和选择故事、创建理解选项等多个步骤。该数据集的应用领域主要是跨文化交流的自然语言处理评估,特别是针对波斯语的大型语言模型文化理解能力的评估。

PERCUL is a cultural evaluation dataset jointly constructed by multiple Iranian universities and research institutions, aiming to assess the cultural sensitivity of large language models (LLMs) to Persian culture. This dataset contains 592 story-based multiple-choice questions with cultural nuances, covering multiple dimensions of Persian culture. The dataset ensures cultural authenticity and accuracy through inputs from native Persian annotators, avoiding the use of translation as a shortcut. The construction process of the dataset includes multiple steps: defining cultural categories, generating seed topics and metadata, generating storylines using LLMs, manually correcting and selecting stories, and creating comprehension options, among others. Its primary application domains are natural language processing evaluations for cross-cultural communication, particularly assessments of the cultural comprehension capabilities of Persian-focused large language models.
提供机构:
伊朗德黑兰大学,伊朗
创建时间:
2025-02-11
搜集汇总
数据集介绍
main_image_url
构建方式
PERCUL数据集的构建基于对波斯文化敏感性的评估,采用故事驱动的多选题形式。首先,研究者根据Hall的文化冰山理论确定了文化类别,然后由波斯本地标注者生成文化细节、种子主题和元数据。接着,使用大型语言模型(LLMs)根据这些元数据生成故事情节,并由人工进行严格校正和筛选。最后,LLMs还根据精心设计的启发式规则生成理解选项,并经过人工校正和筛选。整个构建过程旨在确保数据的真实性和文化相关性,同时避免使用翻译作为捷径。
使用方法
使用PERCUL数据集时,研究者可以评估LLMs对波斯文化的敏感性。数据集中的多选题设计用于捕捉文化细微差别,从而评估LLMs对特定文化的理解程度。研究者可以通过将LLMs的性能与普通人的基准进行比较来建立基线。此外,还可以通过翻译数据集来评估LLMs是否直接学习了目标语言中的概念,或者依赖于翻译作为理解的中介。PERCUL数据集的使用有助于推动跨文化NLP评估的研究,并为未来开发更具文化适应性的LLMs提供基础。
背景与挑战
背景概述
随着大型语言模型(LLMs)在自然语言处理(NLP)领域的广泛应用,评估这些模型在不同文化背景下的表现显得尤为重要。然而,现有的LLMs大多基于英语数据训练,导致其对于非英语语言文化的理解存在明显不足。为了填补这一空白,PERCUL数据集应运而生。PERCUL是一个专门为评估LLMs对波斯文化的敏感性而精心构建的数据集,其特点是通过故事驱动、多选题的方式捕捉文化细微差异的情景。该数据集由伊朗德黑兰大学、伊朗工业大学、德黑兰高级研究所等机构的研究人员共同创建,旨在建立一个评估跨文化NLP评价的基础。PERCUL数据集的引入,为未来研究LLMs在非英语语言文化中的表现提供了重要的基准工具,对于推动LLMs在多元文化环境中的应用具有重要意义。
当前挑战
PERCUL数据集在构建和应用过程中面临着诸多挑战。首先,现有的LLMs主要反映西方文化,而在非英语语言文化中,尤其是波斯文化,缺乏足够的评估工具。其次,在构建数据集的过程中,如何确保文化概念的真实性和准确性是一个重要的问题。为了解决这个问题,PERCUL数据集采用了波斯本地标注者的输入,避免了翻译作为捷径的使用。此外,由于波斯文化与其他文化存在差异,如何有效地将文化元素融入到数据集中也是一个挑战。为了克服这个问题,PERCUL数据集采用了故事驱动的方式,通过故事中的文化现象来体现文化差异。最后,LLMs在理解波斯文化时存在局限性,它们往往依赖于表面层次的细节,而不是深入分析上下文线索来识别特定的文化概念。这也是PERCUL数据集在评估LLMs文化理解能力时所面临的挑战之一。
常用场景
经典使用场景
PERCUL数据集是专门设计用于评估大型语言模型(LLMs)对波斯文化的敏感性的。该数据集包含基于故事的、具有文化细微差别的多选题,旨在捕捉文化相关的场景。PERCUL数据集的独特之处在于,它是由波斯语母语者精心策划的,以确保其真实性和避免使用翻译作为捷径。因此,该数据集的经典使用场景是在跨文化自然语言处理(NLP)评估中,特别是在评估LLMs对非英语语言(如波斯语)的文化理解方面。通过PERCUL,研究人员可以评估LLMs在不同文化背景下的表现,并据此改进模型的跨文化适应性。
解决学术问题
PERCUL数据集解决了当前LLMs在处理非英语语言文化内容时的局限性。现有的LLMs主要反映西方文化,这主要是因为以英语为中心的训练数据占主导地位。PERCUL通过提供专门针对波斯文化的评估工具,填补了这一空白,并有助于研究人员更好地理解LLMs在不同文化背景下的表现。此外,PERCUL还揭示了LLMs在文化理解方面的一些局限性,例如它们往往依赖于表面层次的细节,而不是综合上下文线索来识别特定的文化概念。这为未来的研究提供了方向,促使研究人员探索更有效的方法来训练和理解不同文化背景下的LLMs。
实际应用
在实际应用中,PERCUL数据集可以用于改进LLMs在波斯文化背景下的表现,从而提高它们在波斯语问答、文本生成、机器翻译等任务中的准确性。此外,PERCUL还可以帮助研究人员开发更具有文化敏感性的NLP工具,这些工具可以更好地理解和适应不同文化背景下的用户需求。例如,在教育、旅游、社交媒体等领域,使用PERCUL进行评估的LLMs可以提供更准确、更相关的信息和服务,从而增强用户体验和满意度。
数据集最近研究
最新研究方向
当前自然语言处理领域的前沿研究方向之一是评估大型语言模型(LLM)对不同文化的敏感性和理解能力。PERCUL数据集的提出,旨在解决现有LLM在非英语语言,特别是波斯语文化背景下的评估不足问题。该数据集通过故事驱动的多选题形式,捕捉文化细微差异的情景,并使用波斯语本地标注者的输入,确保了数据的真实性和准确性。PERCUL的引入,为跨文化自然语言处理评估的研究奠定了基础,并为评估LLM在波斯语文化背景下的表现提供了新的工具。
相关研究论文
  • 1
    PerCul: A Story-Driven Cultural Evaluation of LLMs in Persian伊朗德黑兰大学,伊朗 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作