PALM
收藏arXiv2023-05-13 更新2024-06-21 收录
下载链接:
https://palm.grand-challenge.org/
下载链接
链接失效反馈官方服务:
资源简介:
PALM数据集是由中山大学中山眼科中心与百度智能医疗部门合作创建的开放式眼底图像数据集,专注于病理性近视(PM)的识别与解剖结构标注。该数据集包含1200张彩色眼底照片,每张照片均附有病理性近视类别标签及视盘、黄斑位置和病变如斑片状视网膜萎缩(包括视乳头周围萎缩)和视网膜脱离的手动标注。数据集的创建过程涉及详细的标注流程,确保样本质量和特征的准确性。PALM数据集的应用领域主要集中在通过人工智能方法辅助临床医生进行疾病标志的识别或大规模人群筛查,以早期诊断PM,预防视力损失。
The PALM dataset is an open-access fundus image dataset jointly developed by the Zhongshan Ophthalmic Center of Sun Yat-sen University and Baidu's Intelligent Medical Department, focusing on pathological myopia (PM) identification and anatomical structure annotation. It comprises 1200 color fundus photographs, each paired with pathological myopia category labels, alongside manual annotations for the positions of the optic disc and macula, as well as lesions including patchy retinal atrophy (specifically peripapillary atrophy) and retinal detachment. A rigorous annotation workflow was implemented during the dataset's development to ensure sample quality and the accuracy of annotated features. The primary applications of the PALM dataset center on assisting clinicians in disease sign identification or conducting large-scale population screening via artificial intelligence approaches, to achieve early diagnosis of PM and prevent vision loss.
提供机构:
中山大学中山眼科中心
创建时间:
2023-05-13
搜集汇总
数据集介绍

构建方式
PALM数据集的构建采用了社区驱动的方式,由来自阿拉伯世界15个不同国家的44名研究人员共同参与,历时一年完成。数据集包含了来自所有22个阿拉伯国家的指令(输入-输出对),涵盖了现代标准阿拉伯语(MSA)和方言阿拉伯语(DA),并涉及20个不同的主题领域。构建过程中,团队成员遵循精心设计的标注指南,使用可靠的、国家特定的来源进行标注,并通过定期的会议和实时协作平台进行质量控制和一致性检查。最终,数据集经过全面审查,确保了数据的准确性和文化相关性。
使用方法
PALM数据集可用于阿拉伯语言模型的文化和方言指令调整,以及评估模型的文化能力。研究人员可以使用数据集的训练集来训练模型,以使其更好地适应阿拉伯文化背景;同时,可以使用公开测试集作为基准数据集,评估模型在处理阿拉伯文化和方言方面的表现。此外,数据集还包含了私人测试集,用于模型之间的公平比较,并通过排行榜进行访问。
背景与挑战
背景概述
Palm数据集是一个由阿拉伯世界的研究人员共同创建的文化包容和语言多样化的数据集,旨在为阿拉伯语言的大语言模型(LLMs)提供全面的训练和评估资源。该数据集涵盖了所有22个阿拉伯国家,并以现代标准阿拉伯语(MSA)和方言阿拉伯语(DA)两种形式,涵盖了20个不同的主题领域,例如庆祝活动、历史、地理、文学、政治、谚语和体育等。Palm数据集的开发是一个历时一年的社区驱动项目,由来自15个不同阿拉伯国家的44位研究人员参与,旨在确保数据集的文化敏感性和包容性。该数据集的创建填补了现有LLMs在文化适应性和方言多样性方面的空白,为阿拉伯语言模型的开发和评估提供了宝贵的资源。
当前挑战
Palm数据集面临的主要挑战包括:1)低资源国家的数据收集:由于资源有限和本地标注者不足,一些国家的数据收集面临挑战,导致这些国家的文化特色和方言多样性无法得到充分体现。2)方言多样性:阿拉伯世界拥有多种方言,要全面覆盖所有方言的细微差别,需要更大规模和更地理多样化的团队参与。3)自动评估的局限性:尽管自动评估方法可以提供可扩展的评估手段,但在处理方言和细微文化元素方面仍存在局限性,可能导致评估结果偏差。因此,人工评估仍然是确保评估结果可靠性的重要手段。
常用场景
经典使用场景
PALM 数据集是一款文化包容且语言多样化的阿拉伯语指令数据集,旨在提升阿拉伯语大型语言模型(LLMs)的文化敏感性和包容性。该数据集包含来自所有 22 个阿拉伯国家的指令(输入-输出对),涵盖了从现代标准阿拉伯语(MSA)到地方方言的 20 个不同主题。其最经典的使用场景包括:文化意识评估、方言识别、指令微调等。例如,研究人员可以利用 PALM 数据集评估 LLMs 在不同国家和方言中的文化理解能力,并针对特定文化背景进行指令微调,以提高模型的准确性和实用性。
解决学术问题
PALM 数据集解决了阿拉伯语 LLMs 中文化意识不足和方言覆盖率低的问题。现有的阿拉伯语 LLMs 往往在处理文化相关和方言特定的指令时表现不佳,而 PALM 数据集提供了来自所有阿拉伯国家的人类创建的指令,涵盖了从 MSA 到地方方言的广泛语言形式,从而为研究人员提供了评估和改进 LLMs 文化能力的重要工具。
实际应用
PALM 数据集在实际应用场景中具有广泛的应用潜力。例如,它可以用于开发更准确、更具文化敏感性的阿拉伯语聊天机器人、翻译工具和搜索引擎。此外,该数据集还可以用于教育领域,帮助学生学习阿拉伯语的不同方言和文化习俗。
数据集最近研究
最新研究方向
Palm数据集的引入标志着阿拉伯语语言模型领域向文化包容性和语言多样性的重要一步。该数据集通过覆盖所有22个阿拉伯国家和20个多样化的主题,为评估和训练阿拉伯语大型语言模型(LLMs)的文化和方言能力提供了一个全面的平台。Palm的独特之处在于它包含了现代标准阿拉伯语(MSA)和地方方言的指令,并由来自不同地区的本地专家人工标注。这使得Palm成为阿拉伯语社区文化多样性的一个真实反映,并为LLMs提供了更准确的文化背景和方言知识。Palm数据集的最新研究主要集中在评估现有LLMs在理解和生成与文化相关和方言特定的阿拉伯语内容方面的能力,揭示了当前模型在处理文化和方言内容时的局限性和挑战。此外,该研究还强调了创建更具文化意识和包容性的阿拉伯语LLMs的必要性,这对于确保技术对多元文化的正确代表和响应至关重要。
相关研究论文
- 1Palm: A Culturally Inclusive and Linguistically Diverse Dataset for Arabic LLMs不列颠哥伦比亚大学、MBZUAI、Invertible AI、伯泽特大学、沙特王子大学、UM6P、开罗大学、 Ain Shams大学、大马士革大学、苏丹大学、曼努菲亚大学、努瓦克肖特大学、阿尔及利亚国立理工学院、全帆大学、阿尔法塞尔大学 · 2025年
以上内容由遇见数据集搜集并总结生成



