five

TheoTsio/Health_Misinfo|健康信息数据集|虚假信息检测数据集

收藏
hugging_face2023-08-28 更新2024-03-04 收录
健康信息
虚假信息检测
下载链接:
https://hf-mirror.com/datasets/TheoTsio/Health_Misinfo
下载链接
链接失效反馈
资源简介:
健康错误信息数据集是一个包含超过6000篇关于健康问题的英文文章的数据集,来源于网络。该数据集的创建旨在检测健康文档中的错误信息,是通过对TREC健康错误信息的相关性判断创建的。
提供机构:
TheoTsio
原始信息汇总

数据集概述

数据集名称

  • 名称: 健康误信息数据集

数据集描述

  • 概述: 该数据集是一个包含超过6000篇独特文章的英文文档数据集,内容涉及健康问题,旨在检测健康文档中的误信息。数据集源自TREC健康误信息的相关判断。

数据集特征

  • 任务类别: 文本分类
  • 语言: 英语
  • 标签: 健康误信息, 可信度
  • 大小类别: 1K<n<10K

数据集结构

  • 数据实例、数据字段、数据分割、数据创建详情: 待补充

使用数据集的考虑

  • 社会影响、偏见讨论、其他已知限制: 待补充

附加信息

  • 数据集管理员、许可信息、引用信息、贡献: 待补充
AI搜集汇总
数据集介绍
main_image_url
构建方式
在探索健康信息领域的真实挑战之际,该数据集通过搜集网络上关于健康问题的6k余篇独立文章,采用TREC健康误信息的相关性判断作为构建基础,旨在检测健康文献中的错误信息,从而为研究者和开发者提供了一手的素材。
特点
该数据集的一大特色在于其专注于健康领域内的误信息检测,收录的文章均为英文文档,具有较高的针对性和实用性。此外,数据集的构建充分考虑了信息的相关性判断,为后续的文本分类任务提供了可靠的数据支持。
使用方法
用户在使用该数据集时,可根据自身需求进行相应的文本分类任务,如健康信息误判检测等。数据集的具体结构和使用细节虽尚待完善,但基本的框架和目的已经明确,有助于研究者在健康信息领域开展深入的研究工作。
背景与挑战
背景概述
在健康信息日益丰富的数字化时代,错误信息的传播对公众健康构成了严重威胁。 TheoTsio/Health_Misinfo数据集应运而生,旨在通过对网络健康相关文章的收集与判断,检测并识别健康文档中的错误信息。该数据集由超过6000篇独特的英文文章组成,创建于对TREC健康错误信息相关性判断的研究项目中,由相关研究人员或机构精心编纂,为健康信息误传的检测与防范提供了宝贵的研究资源。
当前挑战
数据集在解决健康信息分类与可信度评估领域问题的同时,面临着多方面的挑战。首先,构建过程中需处理初始数据的收集与规范化,确保数据的准确性与代表性。其次,对于数据标注的过程,如何确保标注者的专业性和标注质量,以及避免标注过程中的主观偏差,是另一大挑战。此外,数据集还需关注其可能存在的偏见与社会影响,以及个人隐私信息的保护问题,这些都是数据集构建与使用过程中必须谨慎处理的重要议题。
常用场景
经典使用场景
在当前信息化时代,健康领域的虚假信息传播问题日益严峻,因此,TheoTsio/Health_Misinfo数据集应运而生。该数据集包含6000余份独特的英文健康相关文章,主要应用于文本分类任务,旨在识别和标注健康文档中的错误信息,为相关研究提供了丰富的实验材料。
衍生相关工作
基于该数据集,学术界已衍生出一系列研究工作,如构建更精确的健康信息分类模型、研究健康信息传播的规律以及分析健康谣言的社会影响等,这些工作进一步推动了健康信息领域的研究深度和广度。
数据集最近研究
最新研究方向
在健康信息领域, TheoTsio/Health_Misinfo 数据集正成为研究焦点,其汇集了6000余篇关于健康问题的独特文章,旨在检测网络健康文档中的虚假信息。该数据集的构建,源于对TREC健康虚假信息的相关性判断。当前,学术界正利用此数据集探索文本分类任务,以识别和标注健康信息的可信度,推动健康虚假信息的检测与防范研究。这一方向的研究不仅有助于提升公众健康信息的准确性,亦对构建清朗的网络环境具有重要意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Open Power System Data

Open Power System Data is a free-of-charge data platform dedicated to electricity system researchers. We collect, check, process, document, and publish data that are publicly available but currently inconvenient to use. The project is a service provider to the modeling community: a supplier of a public good. Learn more about its background or just go ahead and explore the data platform.

re3data.org 收录

中国区域教育数据库

该数据集包含了中国各区域的教育统计数据,涵盖了学校数量、学生人数、教师资源、教育经费等多个方面的信息。

www.moe.gov.cn 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

SKIPP’D

SKIPP’D数据集由斯坦福大学的环境评估与优化(EAO)组创建,旨在为基于图像的短期太阳能预测研究提供标准化基准。数据集包含2017至2019年三年的高质量控制下采样的天空图像和光伏发电数据,适合深度学习模型开发。此外,还提供了高分辨率、高频率的天空图像和光伏发电数据,以及相应的视频片段,以支持研究灵活性。数据集的应用领域包括天空图像分割、云类型分类和云运动预测,旨在解决太阳能预测中的短期波动问题。

arXiv 收录