thai_famous_people_images_dataset|人物图像数据集|文化研究数据集
收藏Thai Famous People Image Dataset
数据集描述
泰国名人图像数据集是一个包含泰国名人图像及其描述的集合。该数据集旨在为对泰国文化、历史和知名人物感兴趣的研究人员、开发者和爱好者提供全面的资源。数据提取自2024年9月的泰国维基百科转储,确保信息的及时性和相关性。
维护者
Kobkrit Viriyayudhakorn (kobkrit@iapp.co.th)
许可证
Apache 2.0
关键特征
- 泰国名人图像
- 每位名人的文本描述
- 个人的姓名或头衔
数据集创建
该数据集使用自定义脚本创建,该脚本处理从2024年9月泰国维基百科转储中提取的信息。脚本执行以下步骤:
- 从维基百科转储中提取相关文章和图像
- 处理和清理提取的数据
- 从本地文件或URL获取图像
- 将图像与相应的文本描述和标题结合
- 创建Hugging Face数据集对象
- 将数据集推送到Hugging Face Hub
数据集结构
数据集包含以下字段:
image
: 泰国名人的图像text
: 从维基百科文章中提取的个人描述title
: 个人的姓名或头衔
使用
您可以使用此数据集进行各种任务,包括但不限于:
- 泰国名人的图像分类
- 文本到图像或图像到文本的生成任务
- 泰国公众人物的文化和历史研究
- 泰国维基百科内容的分析
要使用数据集,您可以使用Hugging Face的datasets
库加载它。

CliMedBench
CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。
arXiv 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
FMA (Free Music Archive)
免费音乐档案 (FMA) 是一个大型数据集,用于评估音乐信息检索中的多个任务。它包含 343 天的音频,来自 16,341 位艺术家的 106,574 首曲目和 14,854 张专辑,按 161 种流派的分级分类排列。它提供完整长度和高质量的音频、预先计算的功能,以及轨道和用户级元数据、标签和自由格式的文本,例如传记。作者定义了四个子集:Full:完整数据集,Large:音频限制为 30 秒的完整数据集 从轨道中间提取的剪辑(如果短于 30 秒,则为整个轨道),Medium:选择25,000 个具有单一根流派的 30 年代剪辑,小:一个平衡的子集,包含 8,000 个 30 年代剪辑,其中 8 种根流派中的每一个都有 1,000 个剪辑。官方分为训练集、验证集和测试集(80/10/10)使用分层抽样来保留每个流派的曲目百分比。同一艺术家的歌曲只是一组的一部分。资料来源:FMA:音乐分析数据集
OpenDataLab 收录