KMCLib 1.1: Extended random number support and technical updates to the KMCLib general framework for kinetic Monte-Carlo simulations|动力学蒙特卡罗模拟数据集|随机数生成数据集
收藏CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
Project Gutenberg
Project Gutenberg是一个提供免费电子书的数据集,包含超过60,000本免费电子书,涵盖了文学、历史、科学等多个领域。这些电子书主要以公共领域作品为主,用户可以自由下载和使用。
www.gutenberg.org 收录
MultiTalk
MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。
arXiv 收录
flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录
Vending-Bench
Vending-Bench是一个模拟环境,专为测试基于大型语言模型(LLM)的智能体在长期连贯性方面的能力而设计。智能体需要管理一个简单且长期的商业场景:操作自动售货机。该数据集模拟了智能体与供应商的沟通、客户购买行为等,以评估智能体在长期时间跨度(超过20M tokens的运行)上的持续、连贯决策能力。
arXiv 收录