OBI-Bench|甲骨文处理数据集|多模态模型评估数据集
收藏OBI-Bench 数据集概述
概述
OBI-Bench 是一个应用于甲骨文研究的开放数据集,旨在通过大型多模态模型(LMMs)来辅助古代文字的研究。数据集包含五个主要任务:
- 识别:从原始甲骨或拓片中定位密集的甲骨文文字。
- 重组:将碎片化的文本片段重构为连贯的文本。
- 分类:将单个字符分类为其对应的含义。
- 检索:根据给定的甲骨文图像返回相关结果。
- 解译:解释甲骨文以进行历史和文化研究。
数据集发布
- 发布时间:2024年12月2日
- GitHub仓库:OBI-Bench
数据集来源
数据集收集了来自11个不同来源的5,523张甲骨文图像。由于缺乏公开的甲骨文识别和重组数据集,数据集提出了**原始甲骨识别(O2BR)数据集和甲骨文重组(OBI-rejoin)**数据集。
基准模型
数据集选择了23个最新的主流LMMs进行评估,包括6个专有LMMs和17个开源LMMs。
性能基准
数据集提供了五个任务的性能基准结果,包括:
- 识别任务
- 重组任务
- 分类任务
- 检索任务
- 解译任务
数据集待发布
- 原始甲骨识别(O2BR)数据集:即将发布
- 甲骨文重组(OBI-rejoin)数据集:即将发布
联系信息
- 作者:Zijian Chen
- 邮箱:zijian.chen@sjtu.edu.cn
引用
@misc{chen2024obibench, title={OBI-Bench: Can LMMs Aid in Study of Ancient Script on Oracle Bones?}, author={Zijian Chen and Tingzhu Chen and Wenjun Zhang and Guangtao Zhai}, year={2024}, eprint={2412.01175}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2412.01175}, }

Subway Dataset
该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。
www.kaggle.com 收录
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录
DroneVehicle 大规模无人机航拍车辆检测数据集
这个数据集是天津大学的研究团队在进行无人机航拍图像的车辆检测和计数研究过程中收集和标注的。研究团队于 2020 年发布,相关论文成果为「Drone-based RGB-Infrared Cross-Modality Vehicle Detection via Uncertainty-Aware Learning」。
超神经 收录
LibriSpeech
LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。
OpenDataLab 收录
FMA (Free Music Archive)
免费音乐档案 (FMA) 是一个大型数据集,用于评估音乐信息检索中的多个任务。它包含 343 天的音频,来自 16,341 位艺术家的 106,574 首曲目和 14,854 张专辑,按 161 种流派的分级分类排列。它提供完整长度和高质量的音频、预先计算的功能,以及轨道和用户级元数据、标签和自由格式的文本,例如传记。作者定义了四个子集:Full:完整数据集,Large:音频限制为 30 秒的完整数据集 从轨道中间提取的剪辑(如果短于 30 秒,则为整个轨道),Medium:选择25,000 个具有单一根流派的 30 年代剪辑,小:一个平衡的子集,包含 8,000 个 30 年代剪辑,其中 8 种根流派中的每一个都有 1,000 个剪辑。官方分为训练集、验证集和测试集(80/10/10)使用分层抽样来保留每个流派的曲目百分比。同一艺术家的歌曲只是一组的一部分。资料来源:FMA:音乐分析数据集
OpenDataLab 收录