Spain World Values Survey, Wave 2 1990|社会价值观数据集|调查研究数据集
收藏MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
MeSH
MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。
www.nlm.nih.gov 收录
ArXiv
ArXiv数据集包含了来自arXiv.org的学术论文元数据,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学等多个领域的研究论文。数据集包括论文的标题、作者、摘要、提交日期、修改日期、DOI(数字对象标识符)等信息。
www.kaggle.com 收录
spawn99/CornellMovieDialogCorpus
该数据集包含从原始电影脚本中提取的元数据丰富的虚构对话集合。数据集包括10,292对电影角色之间的220,579次对话交换,涉及617部电影中的9,035个角色,总共有304,713条对话。数据集还包括电影元数据(如类型、发行年份、IMDB评分、IMDB投票数)和角色元数据(如性别、片尾字幕位置)。
hugging_face 收录
suno
该数据集包含由人工智能生成的659,788首歌曲的元数据,这些歌曲由suno.com平台生成。数据集是多语言的,主要语言为英语,但也包含日语和其他语言的歌词和标题。每个歌曲的元数据包括唯一标识符、视频和音频URL、封面图像URL、AI模型版本、生成状态、创作者信息等。数据集根据CC0许可证公开,允许任何用途的使用、修改和分发。
huggingface 收录