有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
人民日报语料库
该数据集包含2023年5月至2024年4月期间人民日报的全部文章,以JSON格式保存,每篇文章包含URL、标题和内容。
github 收录
PQAref
PQAref数据集是一个用于生物医学领域参考问答任务的数据集,旨在微调大型语言模型。该数据集包含三个部分:指令(问题)、摘要(从PubMed检索的相关摘要,包含PubMed ID、摘要标题和内容)和答案(预期答案,包含PubMed ID形式的参考)。数据集通过半自动方式创建,利用了PubMedQA数据集中的问题。
huggingface 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
EmoBench-M
EmoBench-M是由深圳大学计算机科学与软件工程学院等机构创建的一个新型基准数据集,旨在评估大型多模态语言模型在情感智能方面的能力。该数据集基于心理学的情感理论,包含13个评估场景,涵盖了基础情感识别、对话情感理解和复杂社会情感分析三个维度。数据集采用视频、音频和文本等多模态数据,为评估大型多模态语言模型在真实世界交互中的情感智能提供了全面的基准。
arXiv 收录