J-CRe3

github2024-03-15 更新2024-05-31 收录

下载链接：

https://github.com/riken-grp/J-CRe3

下载链接

链接失效反馈

官方服务：

资源简介：

J-CRe3 is a real-world Japanese conversation dataset that contains egocentric video, third-person video, and dialogue audio of real-world conversations between two people. The conversations involve a robot that is helping its master with daily mundane tasks, including many object manipulations. It contains 93 scenario-based dialogues with 2,131 utterances and 11,024 seconds of video.

J-CRe3是一款真实场景日语对话数据集，涵盖双人真实对话的第一人称视角视频、第三人称视角视频与对话音频。对话场景包含机器人协助主人完成日常琐碎任务的交互内容，其中涉及大量物体操作环节。该数据集共包含93个基于场景的对话，总计2131条话语，配套视频总时长达11024秒。

创建时间：

2024-02-27

原始信息汇总

J-CRe3数据集概述

数据集描述

J-CRe3是一个包含真实世界对话的日语对话数据集，涉及一个帮助主人完成日常琐事的机器人。数据集包含93个基于场景的对话，总计2,131个话语和11,024秒的视频。

数据集内容

视频和音频文件

视频文件：包括第一人称视频（fp_video.mp4）和第三人称视频（cam11.mp4, cam12.mp4, cam13.mp4, cam14.mp4）。
音频文件：对话音频文件（audio.wav）。
元数据文件：info.json包含场景ID、说话者ID和话语与视频帧之间的时间对齐信息。
时间戳文件：timestamp.json记录了录音的开始时间。

标注信息

边界框：视频帧中物体和区域的边界框，共79,694个。
文本引用：对话中的文本到文本引用，包括谓词-论元结构、桥接引用和共指。
文本到物体引用：对话文本中的短语与视频帧中物体之间的引用，包括间接引用关系和直接引用关系。

标注文件

文本标注：位于textual_annotations/，使用KNP格式。
视觉标注：位于visual_annotations/，包含边界框和文本到物体的引用。
场景ID文件：位于id/，提供训练/验证/测试分割。
转录文件：位于transcriptions/，包含对话音频的转录。
原始标注文件：位于raw_annotations/，包含边界框和文本到物体的引用。
一致性文件：位于agreement/，用于测量注释者之间的一致性。

数据集统计

详细统计信息请参阅statistics.md。

许可证

本数据集遵循CC BY-SA 4.0许可证。

引用信息

当使用此数据集时，请引用以下论文：

bibtex @inproceedings{ueda-2024-j-cre3, title = {J-CRe3: A Japanese Conversation Dataset for Real-world Reference Resolution}, author = {Nobuhiro Ueda and Hideko Habe and Yoko Matsui and Akishige Yuguchi and Seiya Kawano and Yasutomo Kawanishi and Sadao Kurohashi and Koichiro Yoshino}, booktitle = {Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)}, month = may, year = {2024}, url = {https://aclanthology.org/2024.lrec-main.829}, pages = {9489--9502}, address = {Turin, Italy}, }

搜集汇总

数据集介绍

构建方式

J-CRe3数据集的构建基于真实世界的日语对话场景，涵盖了自我中心视频、第三人称视频以及对话音频。这些对话涉及一个机器人协助其主人在日常琐事中进行物体操作。数据集包含93个基于场景的对话，共计2,131个话语和11,024秒的视频。视频帧中的物体和区域被标注了边界框，每个边界框附有类别名称和实例ID。此外，对话中的文本引用和文本到物体的引用也被详细标注，包括谓词-论元结构、桥接引用和共指关系。

使用方法

使用J-CRe3数据集时，用户可以从Box云存储下载包含视频、音频和标注文件的压缩包。解压后，数据集的目录结构清晰，便于访问。用户可以通过ffmpeg命令提取自我中心视频的帧，并利用提供的JSON文件进行时间对齐和元数据解析。文本和视觉标注文件分别位于textual_annotations和visual_annotations目录中，用户可以根据需要解析这些文件以获取详细的标注信息。数据集的统计信息和使用指南可在statistics.md文件中找到。

背景与挑战

背景概述

J-CRe3数据集，由植田暢大等研究人员于2023年创建，旨在解决日本语境下的真实世界对话中的参照解析问题。该数据集包含了93个基于场景的对话，涉及机器人协助主人完成日常任务的互动。通过整合第一人称视频、第三人称视频及对话音频，J-CRe3不仅提供了丰富的多模态数据，还通过标注对象边界框、文本引用及文本与对象间的引用关系，为自然语言处理领域提供了宝贵的资源。这一数据集的构建，标志着在多模态对话系统研究中迈出了重要一步，尤其在提升机器人与人类交互的自然性和准确性方面具有显著意义。

当前挑战

J-CRe3数据集在构建过程中面临多项挑战。首先，多模态数据的整合与同步要求高精度的技术支持，以确保视频与音频数据的时间对齐。其次，对象边界框的标注需精确识别对话中提及的物体，这对标注工具和方法提出了高要求。此外，文本与对象间引用关系的建立，涉及复杂的语义解析和跨模态映射，需克服语言多样性和上下文依赖性的难题。最后，数据集的规模和多样性也带来了存储和处理上的挑战，要求高效的存储解决方案和强大的计算能力。

常用场景

经典使用场景

J-CRe3数据集在自然语言处理领域中，主要用于研究对话系统中的参照解析问题。通过包含的日语对话数据，研究者可以分析和训练模型，以理解对话中提及的对象和区域，并将其与视频帧中的实际物体进行关联。这种能力对于开发能够理解和执行复杂指令的机器人系统至关重要。

解决学术问题

J-CRe3数据集解决了自然语言处理中的一个关键问题，即对话中的参照解析。通过提供丰富的文本和视觉标注，该数据集帮助研究者开发和验证能够准确解析对话中提及对象的模型。这对于提升对话系统的自然性和准确性具有重要意义，特别是在需要与物理环境交互的应用中。

实际应用

J-CRe3数据集在实际应用中，主要用于开发和优化家庭服务机器人、智能助手等系统。这些系统需要能够理解用户的指令并执行相应的操作，如在家庭环境中找到并操作特定物品。通过使用该数据集，开发者可以训练出更加智能和高效的机器人系统，提升用户体验。

数据集最近研究