Dietary Supplement Corpus
收藏github2018-06-13 更新2024-05-31 收录
下载链接:
https://github.com/medeffects/supplement-corpus
下载链接
链接失效反馈官方服务:
资源简介:
个人体验相关膳食补充剂的推文数据集
A dataset of tweets related to personal experiences with dietary supplements
创建时间:
2016-06-18
原始信息汇总
数据集概述
数据集名称
- Tweet Corpora
数据格式
- 分隔符:Tab
- 字段描述:
- 1st field: Tweet id
- 2nd field: Annotation (Is PET?)
数据集详情
Dietary Supplement Corpus
- 描述: 与膳食补充剂相关的个人体验推文
- 数据集大小 (8,770 tweets): https://github.com/medeffects/tweet_corpora/blob/master/SupplementTweetCorpus8770-20160704.csv
- 参考文献: Jiang, K., Calix, R.A., & Gupta, M. (2016). Construction of a Personal Experience Tweet Corpus for Health Surveillance. In Proceedings of the 15th Workshop on Biomedical Natural Language Processing (pp. 128-135). http://www.aclweb.org/anthology/W16-2917
Medication Corpus
- 描述: 与药物相关的个人体验推文
- 数据集大小 (12,331 tweets combined): https://github.com/medeffects/tweet_corpora/blob/master/MedicineCorpusTrainingSet8612-20170501.csv 和 https://github.com/medeffects/tweet_corpora/blob/master/MedicineCorpusTestSet3719-20170501.csv
- 参考文献: Jiang, K., Feng, S., Calix, R.A., & Gupta, M., Bernard, G.R. (2018). Identifying Tweets of Personal Health Experience through Word Embedding and LTSM. In BMC Bioinformatics 19(Suppl 8):210. https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-018-2198-y.
搜集汇总
数据集介绍

构建方式
Dietary Supplement Corpus数据集的构建基于个人经验相关的推文,通过收集并注释与膳食补充剂相关的推文,构建了一个包含8770条推文的数据集。该数据集的构建遵循严格的筛选和标注流程,确保每条推文都与个人使用膳食补充剂的体验相关,旨在为健康监测研究提供有价值的数据资源。
特点
该数据集的特点在于其专注于个人经验分享的推文,为研究膳食补充剂的实际使用效果提供了直接的文本材料。数据集以制表符分隔的格式存储,包含推文ID和是否为PET(个人经验推文)的标注,便于研究人员进行数据分析和模型训练。此外,数据集的构建过程中考虑了数据的质量和相关性,保证了研究的有效性和可靠性。
使用方法
使用Dietary Supplement Corpus数据集时,研究人员可以首先从提供的GitHub链接中下载推文数据。为了获取原始推文,可以使用推荐的下载工具,如download_tweets.py脚本。在获得数据后,研究人员可以根据数据集中的推文ID重新获取原始推文内容,进而进行文本分析、情感分析或构建预测模型等研究工作。
背景与挑战
背景概述
Dietary Supplement Corpus数据集,由Jiang, K.等研究人员于2016年创建,旨在为健康监测构建个人体验推文语料库。该数据集包含8,770条关于膳食补充剂的推文,是公共卫生领域的重要资源,为研究人员提供了珍贵的个人使用体验信息,对于理解膳食补充剂的影响具有显著的研究价值。该数据集的构建,标志着健康信息在社交媒体分析中的一个重要进展,为后续相关研究奠定了基础。
当前挑战
Dietary Supplement Corpus数据集在构建和应用过程中面临的挑战主要包括:1) 如何从大量非结构化的社交媒体数据中准确提取与膳食补充剂相关的个人体验推文;2) 如何确保注释的准确性和一致性,特别是在标注'是否为PET(个人体验推文)'这一维度上;3) 数据集的扩展性和可维护性,以及如何处理可能出现的隐私和伦理问题。此外,由于社交媒体语言的多样性和不断变化,构建一个全面且能够持续更新的数据集,对研究团队提出了更高的要求。
常用场景
经典使用场景
在自然语言处理领域,特别是健康监测子领域中,Dietary Supplement Corpus数据集被广泛用于挖掘与分析个体对膳食补充剂的亲身体验。该数据集包含8,770条与膳食补充剂相关的推文,其经典使用场景在于,研究者可以依据标注信息(是否为PET),运用文本挖掘技术来识别和分类个人经验性质的推文,从而为健康相关的信息监测提供支持。
实际应用
在实践应用层面,该数据集可用于构建健康监控系统,通过对膳食补充剂使用者的实时反馈进行分析,有助于及时发现潜在的健康风险,为消费者提供安全使用建议,同时辅助医疗监管机构进行市场监督和风险管理。
衍生相关工作
基于Dietary Supplement Corpus数据集,衍生了一系列相关研究工作,如对个人健康体验推文的自动识别、情感分析、以及与医疗信息结合的深度学习模型等。这些工作进一步推动了健康监测领域的发展,提升了社交媒体数据在公共卫生研究中的应用价值。
以上内容由遇见数据集搜集并总结生成



