MT-PREF|机器翻译数据集|偏好分析数据集
收藏MT-Pref 数据集概述
数据集简介
MT-Pref 数据集是一个用于机器翻译(MT)的偏好数据集,旨在通过自动评估指标来模拟用户偏好。该数据集包含 18,000 个实例,涵盖 18 种语言方向,文本来源包括多个领域,时间范围为 2022 年之后。
数据集内容
- 数据来源: 数据集包含多个高质量机器翻译系统生成的翻译结果,并由专业语言学家进行句子级别的质量评估。
- 自动评估指标: 数据集提供了多种自动评估指标的评分,用于分析这些指标在恢复人类偏好方面的能力。
- 附加数据: 数据集还包括在 WMT23 和 FLORES 基准测试上训练模型的所有评估结果,以确保可重复性。
数据集链接
MT-Pref 数据集可通过以下链接获取:sardinelab/MT-pref
数据集用途
该数据集主要用于训练和评估机器翻译模型,特别是那些旨在更好地处理语言细微差别和上下文特定变化的模型。通过使用 MT-Pref 数据集进行训练,模型在 WMT23 和 FLORES 基准测试上的翻译质量显著提升。

- 1Modeling User Preferences with Automatic Metrics: Creating a High-Quality Preference Dataset for Machine Translation电信研究所, 高等技术学院, 里斯本大学, Unbabel, ELLIS里斯本单位, 卡内基梅隆大学, MICS, 中央理工-高等电力学院, 巴黎-萨克雷大学 · 2024年
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
中国陆域及周边逐日1km全天候地表温度数据集(TRIMS LST;2000-2024)
地表温度(Land surface temperature, LST)是地球表面与大气之间界面的重要参量之一。它既是地表与大气能量交互作用的直接体现,又对于地气过程具有复杂的反馈作用。因此,地表温度不仅是气候变化的敏感指示因子和掌握气候变化规律的重要前提,还是众多模型的直接输入参数,在许多领域有广泛的应用,如气象气候、环境生态、水文等。伴随地学及相关领域研究的深入和精细化,学术界对卫星遥感的全天候地表温度(All-weather LST)具有迫切的需求。 本数据集的制备方法是增强型的卫星热红外遥感-再分析数据集成方法。方法的主要输入数据为Terra/Aqua MODIS LST产品和GLDAS等数据,辅助数据包括卫星遥感提供的植被指数、地表反照率等。方法充分利用了卫星热红外遥感和再分析数据提供的地表温度高频分量、低频分量以及地表温度的空间相关性,最终重建得到较高质量的全天候地表温度数据集。 评价结果表明,本数据集具有良好的图像质量和精度,不仅在空间上无缝,还与当前学术界广泛采用的逐日1 km Terra/Aqua MODIS LST产品在幅值和空间分布上具有较高的一致性。当以MODIS LST为参考时,该数据集在白天和夜间的平均偏差(MBE)为0.09K和-0.03K,偏差标准差(STD)为1.45K和1.17K。基于19个站点实测数据的检验结果表明,其MBE为-2.26K至1.73K,RMSE为0.80K至3.68K,且在晴空与非晴空条件下无显著区别。 本数据集的时间分辨率为逐日4次,空间分辨率为1km,时间跨度为2000年-2024年;空间范围包括我国陆域的主要区域(包含港澳台地区,暂不包含我国南海诸岛)及周边区域(72°E-135°E,19°N-55°N)。本数据集的缩写名为TRIMS LST(Thermal and Reanalysis Integrating Moderate-resolution Spatial-seamless LST),以便用户使用。需要说明的是,TRIMS LST的空间子集TRIMS LST-TP(中国西部逐日1 km全天候地表温度数据集(TRIMS LST-TP;2000-2024)V2)同步在国家青藏高原科学数据中心发布,以减少相关用户数据下载和处理的工作量。
国家青藏高原科学数据中心 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
UAV-AWID (UAVs-Adv Weather and Image Distortions)
UAV-AWID数据集包含在恶劣天气和图像失真条件下拍摄的无人机图像,包括雨天测试数据集(RTSD)、运动模糊测试数据集(MBTD)和人工噪声测试数据集(ANTD)。这些数据集用于评估深度学习模型在不同天气和图像失真条件下的性能。
github 收录