Comparative Toxicogenomics Database (CTD)|毒理学数据集|环境健康数据集
收藏
- Comparative Toxicogenomics Database (CTD) 创建并首次公开发布。
- CTD 数据库进行了重要的数据结构和内容更新。
- CTD 数据库扩展了其毒理学数据,增加了药物-基因相互作用的信息。
- CTD 数据库集成基因组学数据,提升了其在毒理学研究中的应用价值。
- CTD 数据库增加了化学物质的生物活性数据,丰富了数据库内容。
- CTD 数据库完成了全面的界面更新,提升了用户体验。
Tunnel lining cracks
There are a total of 2,213 pictures of tunnel lining cracks, and there are three main types of cracks, Oblique, circumferential and longitudinal cracks.
DataCite Commons 收录
IMF International Financial Statistics (IFS)
国际货币基金组织(IMF)的国际金融统计(IFS)数据集提供了全球各国的金融和经济数据,包括货币供应、利率、国际收支、国际储备等。该数据集是研究国际金融和经济趋势的重要资源。
www.imf.org 收录
Drone-detection-dataset
包含红外、可见光和音频数据的数据集,用于训练和评估无人机检测传感器和系统。数据集包含90个音频片段和650个视频(365个红外和285个可见光),如果从所有视频中提取所有图像,数据集共有203328个带标注的图像。
github 收录
BBT-FinCorpus
BBT-FinCorpus是由上海数据科学重点实验室创建的大型中文金融领域数据集,包含约300GB的原始文本,来源于金融新闻、公司公告、研究报告和社交媒体等四个不同渠道。该数据集的创建旨在丰富金融领域的文本多样性,支持金融预训练语言模型的开发。通过精细的收集和处理,BBT-FinCorpus覆盖了金融NLP任务中的主要文本类型,为金融领域的语言理解和生成任务提供了丰富的数据资源。该数据集的应用领域广泛,特别适用于金融信息提取、情感分析等任务,旨在提升中文金融NLP的整体水平。
arXiv 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录