WanJuan2.0 (万卷-CC)|自然语言处理数据集|预训练数据集数据集
收藏TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
长基线雷电密度24小时分布图
长基线雷电密度24小时分布图由长基线探测仪雷电探测数据加工制作而成,长基线探测仪雷电探测数据由分布在亚太地区的多个VLF电磁脉冲探测仪观测产生,本数据集数据产品制作时选取探测范围内24小时的长基线探测仪雷电探测数据计算雷电密度,并叠加探测范围内的地理信息进行制图,长基线雷电密度24小时分布图时间间隔为24小时,每日8时(北京时)分别生成一张,图片以JPEG方式存储,可用于每24小时闪电密度分布直观显示,供用户查看亚欧大陆、太平洋及印度洋大部分地区的雷电发生情况。
国家空间科学数据中心 收录
WHO Drug
WHO Drug数据集包含了世界卫生组织(WHO)发布的药物信息,包括药物的通用名称、国际非专利名称(INN)、化学名称、分子式、分子量、CAS登记号等详细信息。该数据集旨在为全球的药物研究和监管提供标准化的药物信息。
www.who.int 收录
lmarena-ai/arena-human-preference-100k
这个数据集包含了2024年6月至2024年8月期间收集的排行榜对话数据。它包括用于开发Arena Explorer的英语人类偏好评价。此外,我们还提供了一个嵌入文件,其中包含了英语对话的预计算嵌入,这些嵌入用于主题建模管道以对这些对话进行分类和分析。
hugging_face 收录
CWD30
CWD30包含超过219,770张20种杂草和10种作物的高分辨率图像,涵盖了不同的生长阶段、多个观察角度和环境条件。这些图像是从不同地理位置和季节的多样化农业领域收集的,确保了数据集的代表性。
github 收录