Microsoft Academic Graph (MAG)|学术研究数据集|知识图谱数据集
收藏
- Microsoft Academic Graph (MAG) 首次公开发布,作为微软研究院的一项重要成果,旨在提供一个全面、开放的学术研究数据集。
- MAG 开始被广泛应用于学术研究、数据分析和机器学习领域,成为研究人员和开发者的重要资源。
- MAG 数据集的规模和覆盖范围进一步扩大,增加了对更多语言和学科的支持,提升了其在全球学术界的影响力。
- MAG 引入了新的数据更新机制,确保数据集的实时性和准确性,同时发布了多个API接口,方便用户访问和使用。
- MAG 数据集在新冠疫情期间被用于多个研究项目,帮助科学家分析疫情趋势和研究成果,展现了其在公共卫生领域的应用价值。
- MAG 继续扩展其数据集的深度和广度,增加了对新兴学科和跨学科研究的支持,进一步巩固了其在学术数据领域的领先地位。
diegopdlv5/test_dataset_0049c
该数据集主要包含音频数据,分为训练集,共有135个样本,总大小为51580253字节。下载大小为51573551字节。
hugging_face 收录
alpacaGPT4_llama8b-v120-jb-seed2-alpaca_512_ngt0.7_tp0.9
该数据集包含了用户和助手之间的对话,具有用户和助手发言的文本特征,以及一个索引级别特征。数据集分为训练集,共有52001条对话记录。
huggingface 收录
Yahoo Finance Historical Data
该数据集包含来自Yahoo Finance的历史股票数据,涵盖了股票的开盘价、收盘价、最高价、最低价、成交量等信息。数据集的时间跨度从2000年1月至今,提供了全球多个市场的股票数据。
finance.yahoo.com 收录
中国裁判文书网
中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。
wenshu.court.gov.cn 收录
MultiTalk
MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。
arXiv 收录