bvk/ENRON-spam|垃圾邮件检测数据集|朴素贝叶斯数据集
收藏Enron 电子邮件数据集
概述
- 来源:该数据集源自美国联邦能源监管委员会公开的600,000封电子邮件,涉及158名员工。数据集随后被MIT购买并处理,部分附件被删除或编辑。
- 版本:数据集的版本可在美国国会图书馆和https://www.cs.cmu.edu/~./enron/获取。
子集
- 子集来源:互联网上可以找到该数据集的多个子集,包括在Github、HuggingFace和Kaggle上。
- 特定子集:希腊信息与电信研究所的研究人员在他们的论文[Metsis]中描述了一个常用子集。该子集选择了六名电子邮件量较大的Enron员工,包含33,716封电子邮件,其中17,171封为垃圾邮件。
数据内容
- 文件格式:CSV文件。
- 字段:包含主题与内容的连接字段,以及原始文件名。
研究目的
- 研究方向:用于分析和测试各种垃圾邮件过滤器,包括多种朴素贝叶斯版本。
参考文献
- [Metsis] Metsis, V., Androutsopoulos, I., & Paliouras. G., Spam filtering with naive bayes-which naive bayes? Proceedings of the 3rd Conference on Email and Anti-Spam (CEAS 2006), Mountain View, CA, USA, 2006.

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
Med-MAT
Med-MAT是一个包含106个开源医学数据集的视觉问答(VQA)数据集,旨在推动医学多模态大语言模型(MLLMs)的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式,展示了组合泛化(CG)是MLLMs理解未见图像的关键机制。数据集包括106个医学数据集的问答对、53个按模态、解剖区域和任务(MAT)分类的子集的问答对,以及部分数据集的图像下载链接。
huggingface 收录
Coffee_Shop_Sales
该数据集包含了咖啡店的详细交易信息,包括交易ID、日期、时间、店铺编号、位置、产品类别、类型、名称、价格、月份、日期、星期和小时等属性。数据集用于分析咖啡店的销售情况,如收入和交易量的变化趋势。
github 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录