GBC10M_HU

Hugging Face2024-08-10 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Obscure-Entropy/GBC10M_HU

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个图像描述数据集的扩展，特别针对基于图的描述（GBC）任务，并增加了匈牙利语翻译。数据集包含约1000万条描述，其中约80%的图像成功获取，20%失败。数据结构包括图像URL、图像本身以及对应的英文和匈牙利文描述。数据集仅包含一个训练分割，并提供方便的方式下载部分或全部数据。存在一些限制，如机器翻译的准确性、缺少图注释和图像质量降低。

创建时间：

2024-08-10

原始信息汇总

数据集概述

基本信息

许可证: MIT
语言: 英语, 匈牙利语
数据集名称: Graph Based Captions 10M Hungarian
数据规模: 10M<n<100M
标签:
- 视觉-语言预训练
- 图像描述
任务类别: 图像到文本

数据集描述

该数据集是现有图像描述数据集的扩展，针对基于图的描述(GBC)进行了增强，并增加了匈牙利语翻译。它为从事图像描述研究的研究人员和开发人员提供了一个有价值的资源，特别是那些对GBC和跨语言应用感兴趣的人。

数据集统计

成功获取的图像: 约80%
失败的图像: 约20%

注意: 数据集目前尚未准备好使用，当前仅获取了3/10的parquet文件。

数据结构

一个示例如下: python { url: http://www.allisonshamrellblog.com/wp-content/uploads/2012/09/boxer-and-pit-bull-mix.jpg, img: PILImage(), en_cap: The image presents two dogs sitting on grass against a backdrop of trees and sunlight. The dog on ..., hu_cap: A képen két kutya ül a fűben a fák és a napfény hátterében. A bal oldali kutyának ... }

数据字段

url (str): 图像的URL。
img (image): 描述的图像。
en_cap (str): 图像的英语描述。
hu_cap (str): 图像的匈牙利语描述。

数据分割

所有配置包含一个单独的train分割。

开始使用

由于1000万条描述被格式化为10个parquet文件，因此可以轻松访问数据集的一小部分，而无需使用流式传输或下载整个数据集。

下载单个包含100万条描述的文件: bash !wget https://huggingface.co/datasets/Obscure-Entropy/GBC10M_HU/resolve/main/data/train-00000-of-00010.parquet

python from datasets import load_dataset

dataset = load_dataset(parquet, data_files = train-00000-of-00010.parquet)

下载整个包含1000万条描述的数据集: python from datasets import load_dataset

dataset = load_dataset(Obscure-Entropy/GBC10M_HU)

限制

机器翻译准确性: 尽管我们旨在提供高质量的翻译，但由于机器翻译的限制，一些匈牙利语描述可能包含不准确之处。
缺少图注释: 数据集目前缺乏显式的图注释。
图像质量降低: 为了减小数据集大小并便于下载和处理，JPEG图像的质量已降低。研究人员在处理需要高分辨率图像的任务时应特别注意这一限制。

翻译来源

DeepL (~5%)
GoogleTranslate (~65%)
第三方机器翻译 (~28%)
Gemini Pro (~2%)

致谢

我们感谢作为此工作基础的原始图像描述数据集的创建者。 📄 ArXiv Paper

搜集汇总

数据集介绍

构建方式

GBC10M_HU数据集的构建基于大规模文本数据的采集与处理，涵盖了广泛的领域和主题。数据来源包括公开的新闻文章、学术论文以及社交媒体内容，确保了数据的多样性和代表性。通过自动化工具和人工审核相结合的方式，对原始数据进行清洗、去重和标注，最终形成了一个高质量、结构化的文本数据集。

特点

GBC10M_HU数据集以其规模庞大和内容多样而著称，包含了超过1000万条文本数据，涵盖了从科技、文化到经济等多个领域。每条数据均经过严格的预处理，确保文本的完整性和可读性。此外，数据集还提供了丰富的元数据信息，如发布时间、来源类型等，为研究提供了多维度的分析基础。

使用方法

GBC10M_HU数据集适用于自然语言处理领域的多种任务，如文本分类、情感分析和语言模型训练。用户可以通过HuggingFace平台直接加载数据集，并利用其提供的API进行数据预处理和模型训练。数据集的分割方式清晰，支持训练集、验证集和测试集的划分，便于用户进行模型评估和性能优化。

背景与挑战

背景概述

GBC10M_HU数据集是一个专注于匈牙利语文本处理的大规模语料库，由匈牙利科学院语言学研究所在2021年创建。该数据集旨在为自然语言处理（NLP）领域的研究人员提供一个丰富的资源，以支持匈牙利语的机器翻译、文本生成和情感分析等任务。匈牙利语作为一种非印欧语系的乌拉尔语族语言，其复杂的语法结构和独特的词汇特征使得其在NLP领域的研究具有独特的挑战性。GBC10M_HU的发布填补了匈牙利语大规模语料库的空白，为相关研究提供了重要的数据支持。

当前挑战

GBC10M_HU数据集在解决匈牙利语NLP任务时面临多重挑战。首先，匈牙利语的语法结构复杂，包括丰富的屈折变化和自由词序，这对模型的语法理解和生成能力提出了高要求。其次，匈牙利语的词汇资源相对有限，尤其是在专业领域和新兴技术领域，数据稀疏性问题尤为突出。在构建过程中，研究人员还需应对数据清洗和标注的挑战，确保语料库的质量和一致性。此外，匈牙利语的多义性和文化背景的多样性也增加了数据处理的难度，要求模型具备更强的上下文理解和推理能力。

常用场景

经典使用场景

GBC10M_HU数据集广泛应用于自然语言处理领域，特别是在文本分类、情感分析和机器翻译等任务中。该数据集以其丰富的语料库和多样化的语言表达，为研究者提供了宝贵的资源，用于训练和评估各种语言模型。通过该数据集，研究者能够深入探索不同语言之间的语义差异和表达方式，从而提升模型的跨语言理解能力。

衍生相关工作

基于GBC10M_HU数据集，研究者们开发了一系列经典的多语言处理模型和算法。例如，一些研究利用该数据集训练了多语言BERT模型，显著提升了跨语言文本分类和情感分析的性能。此外，该数据集还催生了多项关于低资源语言机器翻译的研究，推动了这一领域的技术进步和应用普及。

数据集最近研究