medicine_news_dataset
收藏Hugging Face2024-11-12 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/ScoutieService/medicine_news_dataset
下载链接
链接失效反馈官方服务:
资源简介:
数据集是从30个俄语Telegram新闻频道收集的,主题为医学,并由Scoutie服务自动收集和标记。数据集包含多个字段,如任务标识符、文本、链接、视图、情感、语言等,这些字段提供了丰富的信息用于文本分类和其他自然语言处理任务。
创建时间:
2024-11-12
原始信息汇总
Medical News Dataset
描述
- 任务类别: 文本分类
- 语言: 俄语
- 标签: 医学, 生物学, 化学
- 数据集名称: Medical News Dataset
- 数据集大小: 10K<n<100K
数据集字段
- taskId: Scoutie服务中的任务标识符。
- text: 主要文本。
- url: 发布链接。
- sourceLink: Telegram链接。
- subSourceLink: 频道链接。
- views: 文本浏览量。
- likes: 对于此数据集,该字段为空(表示情感数量)。
- createTime: 发布日期,以Unix时间格式表示。
- createTime: 发布收集日期,以Unix时间格式表示。
- clusterId: 集群ID。
- vector: 文本嵌入(其向量表示)。
- ners: 识别的命名实体数组,其中lemma是单词的词形还原表示,label是标签名称,start_pos是实体在文本中的起始位置,end_pos是实体在文本中的结束位置。
- sentiment: 文本的情感色彩:POSITIVE, NEGATIVE, NEUTRAL。
- language: 文本语言:RUS, ENG。
- spam: 文本分类为广告或非广告:NOT_SPAM - 无广告,否则SPAM - 文本标记为广告。
- length: 文本中的令牌数量(单词)。
- markedUp: 表示文本是否在Scoutie服务框架内标记,取值为true或false。
搜集汇总
数据集介绍

构建方式
该数据集通过Scoutie数据收集与标注服务,从30个俄语Telegram新闻频道中自动采集并标注了与医学相关的新闻内容。Scoutie服务不仅自动化了数据的收集过程,还通过其内置的算法对文本进行了多层次的标注,包括情感分析、命名实体识别以及文本分类等,确保了数据的多样性和标注的准确性。
特点
该数据集涵盖了广泛的医学领域信息,包含文本的情感分析、命名实体识别、文本长度统计以及是否为广告的分类等多维度特征。每个文本条目均附有详细的元数据,如发布时间、来源链接、浏览量等,为研究者提供了丰富的上下文信息。此外,文本的向量化表示和聚类信息也为深度学习模型的训练和文本相似度分析提供了便利。
使用方法
该数据集适用于文本分类、特征提取等自然语言处理任务。研究者可以利用其丰富的情感标签和命名实体信息,训练情感分析模型或实体识别系统。同时,文本的向量化表示可直接用于文本相似度计算或聚类分析。对于医学领域的应用,该数据集还可用于监测医学新闻的传播趋势或分析公众对特定医学话题的情感反应。
背景与挑战
背景概述
Medicine News Dataset 是一个专注于医学领域的文本数据集,由30个俄语Telegram新闻频道的数据构成。该数据集由Scoutie数据收集与标注服务自动构建,涵盖了医学、生物学和化学等多个相关领域的内容。数据集的核心研究问题在于通过自动化手段对医学新闻进行分类、特征提取以及情感分析,旨在为医学信息处理提供高质量的数据支持。该数据集的创建标志着医学文本分析领域的一个重要进展,尤其是在俄语语境下的医学信息处理方面,具有显著的影响力。
当前挑战
Medicine News Dataset 在构建和应用过程中面临多重挑战。首先,医学文本的复杂性和专业性要求数据集在标注和分类时具备高度的准确性,这对自动化标注工具提出了极高的要求。其次,俄语作为数据集的主要语言,其语法结构和词汇特性增加了文本处理的难度,尤其是在命名实体识别和情感分析方面。此外,数据集的构建依赖于Telegram新闻频道,这些频道的新闻内容可能存在信息偏差或噪音,如何有效过滤和清洗数据成为一大挑战。最后,医学领域的快速发展和信息更新要求数据集具备动态更新的能力,以确保其时效性和实用性。
常用场景
经典使用场景
在医学信息处理领域,medicine_news_dataset数据集被广泛应用于文本分类和特征提取任务。研究者利用该数据集对俄语医学新闻进行情感分析、命名实体识别以及文本聚类,从而深入理解医学新闻的语义结构和情感倾向。该数据集的高质量标注和丰富的字段信息为自然语言处理模型提供了坚实的训练基础。
实际应用
在实际应用中,medicine_news_dataset数据集被用于构建智能医学信息监测系统,帮助医疗机构和研究人员实时跟踪医学新闻动态。通过分析新闻文本的情感和实体信息,系统能够自动生成医学趋势报告,辅助决策制定。此外,该数据集还被用于开发医学信息过滤工具,帮助用户快速识别和屏蔽广告内容,提升信息获取效率。
衍生相关工作
基于medicine_news_dataset数据集,研究者开发了多项经典工作,如基于深度学习的俄语医学新闻情感分析模型、医学实体识别系统以及跨语言医学文本聚类算法。这些工作不仅提升了医学文本分析的精度,还为其他语言和领域的文本处理提供了借鉴。此外,该数据集还促进了医学信息检索和知识图谱构建领域的研究,推动了相关技术的创新与应用。
以上内容由遇见数据集搜集并总结生成



