gold-prices|黄金价格数据集|金融数据数据集
收藏数据集概述
名称: 黄金价格数据集
时间范围: 1950年至今
货币单位: 美元
市场: 伦敦市场
数据来源: 德国联邦银行(Bundesbank)
数据准备
- 所需软件: Python 3.6及以上版本
- 所需库: dataflows
- 更新数据: 运行
gold_price_flow.py
脚本
数据计算方法
- 1950年1月至1954年3月21日: 使用英格兰银行的黄金购买价格和平均汇率计算。
- 1954年3月22日至1959年12月: 使用Metallgesellschaft AG提供的标准金条固定价格和平均汇率计算。
- 1960年1月至1968年3月14日: 使用英格兰银行季度公报中指定的标准金条平均固定价格。
- 1968年3月15日: 固定价格暂停,黄金市场分为官方市场和自由市场。
- 1968年3月18日至29日: 黄金交易暂停。
- 每日价格来源:
- 1968年4月至1974年3月: 金融时报(FT)
- 1974年4月至1980年12月: Samuel Montagu & Co. Ltd.
- 1981年1月至2005年12月: 金融时报(FT)
- 2006年1月至今: 路透社(Reuters)
自动化更新
- 更新频率: 每月
- 更新平台: datahub.io
许可证
- 许可证类型: 公共领域授权(Public Domain Dedication and License)
- 数据限制: 无明显限制,数据库权利存疑。

VoxBox
VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。
github 收录
jpft/danbooru2023
Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。
hugging_face 收录
TM-Senti
TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。
arXiv 收录
Multi-Text CIR (MTCIR)
MTCIR是一个大规模的合成数据集,包含340万图像对和1770万修改文本。该数据集由亚马逊公司收集,旨在解决组合图像检索领域数据不足的问题,通过多模态大型语言模型生成图像对的修改文本,并提供了多个简短的修改文本,以覆盖各种属性,更好地反映人类查询构建方式,为CIR模型提供更真实、全面的训练基础。
arXiv 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录