bigbio/spl_adr_200db|药物不良反应数据集|文本挖掘数据集
收藏数据集概述:SPL ADR
基本信息
- 语言: 英语
- 许可证: CC0-1.0
- 多语言性: 单语种
- 任务:
- 命名实体识别 (NER)
- 命名实体消歧 (NED)
- 关系抽取 (RE)
数据集描述
- 主页: https://bionlp.nlm.nih.gov/tac2017adversereactions/
- 是否公开: 是
- 是否包含PubMed数据: 否
该数据集由美国食品药品监督管理局(FDA)与国家医学图书馆合作创建,包含200种FDA批准药物的已知不良反应的标准化信息。数据集中的结构化产品标签(SPL)文档经过手动标注,以促进从所有SPL中提取ADR的文本挖掘工具的开发和评估。ADR随后被规范化为统一医学语言系统(UMLS)和医疗词典监管活动(MedDRA)。
引用信息
@article{demner2018dataset, author = {Demner-Fushman, Dina and Shooshan, Sonya and Rodriguez, Laritza and Aronson, Alan and Lang, Francois and Rogers, Willie and Roberts, Kirk and Tonning, Joseph}, title = {A dataset of 200 structured product labels annotated for adverse drug reactions}, journal = {Scientific Data}, volume = {5}, year = {2018}, month = {01}, pages = {180001}, url = { https://www.researchgate.net/publication/322810855_A_dataset_of_200_structured_product_labels_annotated_for_adverse_drug_reactions }, doi = {10.1038/sdata.2018.1} }
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录