MTRAG|自然语言处理数据集|对话系统评估数据集
收藏
- 1MTRAG: A Multi-Turn Conversational Benchmark for Evaluating Retrieval-Augmented Generation SystemsIBM研究院 · 2025年
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
LibriSpeech
LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。
OpenDataLab 收录
腾讯词向量(Tencent AI Lab Embedding Corpus for Chinese Words and Phrases)
这些语料库的最新版本提供了100维度和200维度的向量表示形式,也就是嵌入,适用于中文和英文。具体来说,有超过1200万个中文单词和短语以及650万个英语单词和短语,它们是在大规模高质量数据上进行预先培训的。这些向量捕获单词和短语的语义含义,可以广泛应用于许多下游任务 (例如,命名实体识别和文本分类) 以及进一步的研究中。
OpenDataLab 收录
ImageNet-1K(ILSVRC2012)
ImageNet-1K(ILSVRC2012)是一个大规模的图像分类数据集,包含1000个类别的图像,用于训练和验证图像分类模型。
github 收录
RadDet
RadDet是一个包含11种雷达类别的数据集,包括6种新的低概率干扰(LPI)多相码(P1, P2, P3, P4, Px, Zadoff-Chu)和一种新的宽带调频连续波(FMCW)。数据集覆盖500 MHz频段,包含40,000个雷达帧,分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供:稀疏数据集(RadDet-1T)和密集数据集(RadDet-9T)。
github 收录