BullingerDB
收藏arXiv2026-05-29 更新2025-01-25 收录
下载链接:
https://zenodo.org/
下载链接
链接失效反馈官方服务:
资源简介:
BullingerDB是由弗里堡大学等机构联合创建的大规模历史文档分析基准数据集,基于16世纪瑞士改革家海因里希·布林格的信件手稿。该数据集包含20,898页手稿图像,涵盖499,222个文本行,由796位书写者在六十年间用拉丁语和早期新高地德语等多种语言撰写,并附有书写者身份和时间等元数据。数据集的创建过程包括对数字化扫描件进行布局分析、文本行分割以及通过学者转录与自动对齐相结合的方式生成标注,最终经过严格的后处理筛选。该数据集主要应用于手写文本识别和书写者检索研究领域,旨在解决历史手稿的多语言识别、长期笔迹风格演变分析等挑战,为文档分析提供具有丰富时空维度的基准资源。
This dataset was jointly constructed by the University of Paris Cité and the University of Groningen. It contains precomputed optical parameter grids for seven key aerosol species in exoplanetary atmospheres, such as amorphous silicates, titanium tholins and other similar species. The data covers a wavelength range of 0.3–50 micrometers and a particle size range of 0.001–30 micrometers. Utilizing a high-precision interpolation method, the dataset achieves a 1.4–17-fold increase in computational speed. The dataset adopts laboratory-measured optical constants, is optimized for the observation requirements of the James Webb Space Telescope (JWST) and the future ARIEL telescope, and supports rapid retrieval of cloud properties. It is primarily applied to exoplanetary atmospheric characterization, addresses the computational bottleneck in aerosol modeling, and facilitates multi-species cloud research and population statistical analysis.
提供机构:
弗里堡大学·AIBEX研究组; 瑞士西部应用科学与艺术大学·iCoSys研究所; 苏黎世大学·计算语言学系
创建时间:
2026-05-29
搜集汇总
数据集介绍

构建方式
MYRIAD PEOPLE数据集的构建基于一个集体艺术展览的背景,旨在展示新媒体艺术中使用的开源软件及其贡献者。研究者通过公开征集艺术家作品,最终筛选出9件使用多种软件和媒介的艺术作品。这些作品在2024年10月的斯德哥尔摩展览中展出。数据集的核心内容来源于这些艺术家提供的开源项目列表,涵盖了124个GitHub托管项目及其贡献者。研究者通过GitHub API获取了每个项目的贡献者信息,并将其分类为9个不同的软件类别,如人工智能、命令行工具、图形处理等。
特点
MYRIAD PEOPLE数据集的特点在于其广泛覆盖了新媒体艺术中使用的开源软件生态系统。数据集不仅包含了124个开源项目,还记录了14797名已登录贡献者和54379名匿名贡献者的信息。这些项目涵盖了从图形处理到声音合成的多种功能,反映了新媒体艺术中软件技术的多样性。此外,数据集还通过手动分类,将每个项目按其在新媒体艺术中的具体用途进行了归类,进一步增强了数据的可解释性和研究价值。
使用方法
MYRIAD PEOPLE数据集的使用方法多样,既可用于艺术研究,也可用于软件工程领域的探索。在艺术研究方面,数据集可用于分析开源软件在新媒体艺术创作中的角色,揭示艺术家与开发者之间的协作模式。在软件工程领域,数据集为研究开源贡献者的动机、社区动态以及编程语言在艺术中的应用提供了丰富的素材。此外,数据集还可用于教育领域,帮助设计基于创意编程的计算机科学课程,激发学生对编程的兴趣。
背景与挑战
背景概述
MYRIAD PEOPLE数据集由蒙特利尔大学的Benoit Baudry与来自斯德哥尔摩的独立艺术家Erik Natanael Gustafsson、Roni Kaufman和Maria Kling共同创建,旨在记录新媒体艺术中使用的开源项目及其贡献者。该数据集于2024年10月在斯德哥尔摩的MYRIAD展览中首次亮相,涵盖了9件艺术作品所使用的124个开源项目及其贡献者。这些项目涉及多种软件层次,包括图形处理、嵌入式系统、自然语言处理等,展示了新媒体艺术中软件技术的广泛应用。MYRIAD PEOPLE的创建不仅揭示了艺术家与开发者之间的紧密合作,还为软件工程与艺术研究的交叉领域提供了宝贵的数据资源。
当前挑战
MYRIAD PEOPLE数据集在构建过程中面临多重挑战。首先,新媒体艺术作品的多样性和复杂性使得数据收集变得困难,尤其是如何准确记录每个作品所使用的开源项目及其贡献者。其次,数据集依赖于GitHub API获取贡献者信息,但由于部分项目规模过大或托管在其他平台,导致数据获取不完整。此外,匿名贡献者的存在增加了数据整理的复杂性,尤其是在追踪其具体贡献时。最后,数据集的使用场景也面临挑战,如何将开源贡献者的信息有效整合到艺术展览中,并确保其合法性和技术可追溯性,仍需进一步探索。这些挑战不仅影响了数据集的完整性,也为未来的研究提出了新的问题。
常用场景
经典使用场景
MYRIAD PEOPLE数据集在新媒体艺术领域中被广泛用于分析和展示开源软件项目及其贡献者的多样性。通过该数据集,研究人员可以深入探讨不同软件在新媒体艺术创作中的应用,揭示艺术家与开发者之间的协作模式。数据集的核心价值在于其能够为艺术展览提供详尽的软件贡献者信息,帮助观众理解艺术作品背后的技术支撑。
实际应用
在实际应用中,MYRIAD PEOPLE数据集被用于构建艺术展览中的互动装置,如LOAM装置,该装置通过展示开源软件贡献者的名字,增强了观众对艺术作品背后技术支撑的理解。此外,该数据集还为教育领域提供了丰富的教学资源,帮助学生在学习编程时通过艺术创作的视角理解计算机科学。
衍生相关工作
MYRIAD PEOPLE数据集衍生了一系列相关研究,特别是在开源社区贡献者动机分析、计算机科学教育中的创意编程应用以及新媒体艺术中的编程抽象研究等领域。例如,基于该数据集的研究探讨了如何通过艺术创作吸引更多开发者参与开源项目,以及如何通过创意编程提升编程教育的趣味性和包容性。
以上内容由遇见数据集搜集并总结生成



