five

GIGO revisited: ML publications' approaches to training data

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/GIGO_revisited_ML_publications_etc
下载链接
链接失效反馈
官方服务:
资源简介:
200 篇机器学习出版物的随机样本,由一组标注员系统分析,他们询问了多达 15 个关于出版物如何讨论其训练数据的问题。监督机器学习,其中模型自动从标记的训练数据派生,仅作为与该数据的质量一样好。这项研究建立在先前的工作基础上,该工作调查了在单个域(社交媒体平台)内的应用 ML 出版物中,在多大程度上遵循了关于标记训练数据的“最佳实践”。在本文中,我们通过研究在更广泛的学科中应用监督机器学习的出版物进行扩展,重点关注人工标记的数据。我们报告了跨学科的 ML 应用论文的随机样本在多大程度上提供了有关是否遵循最佳实践的具体细节,同时承认更大范围的应用领域必然会产生更多样化的标签和注释方法。因为大部分机器学习研究和教育只关注在训练数据的“基本事实”或“黄金标准”可用时所做的事情,因此围绕此类数据是否可靠这一同样重要的方面讨论问题尤其重要首先。当应用于各种专业领域时,这种确定变得越来越复杂,因为标签的范围可以从几乎不需要背景知识的任务到必须由具有职业专业知识的人执行的任务。
提供机构:
OpenDataLab
创建时间:
2022-06-28
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作