graph_translation_eng_kh_200k
收藏Hugging Face2026-04-01 更新2026-04-02 收录
下载链接:
https://huggingface.co/datasets/vichetkao/graph_translation_eng_kh_200k
下载链接
链接失效反馈官方服务:
资源简介:
hf_10k_charts 是一个包含英语-高棉语双语图文对的数据集,适用于图机器学习任务。数据集包含两个模态:图像(image_eng, image_kh)和对应文本(text_eng, text_kh),共计20万条样本(训练集18万条,测试集2万条)。总数据量约9.48GB,采用Apache 2.0许可证发布。该数据集支持英语(en)和高棉语(km)两种语言,属于中等规模数据集(10万到100万样本量级),主要应用于跨语言图文理解、机器翻译等相关研究领域。数据以Parquet格式存储,包含明确的训练/测试划分。
hf_10k_charts is a bilingual (English-Khmer) image-text paired dataset tailored for graph machine learning tasks. The dataset contains two modalities: images (image_eng, image_kh) and their corresponding texts (text_eng, text_kh), with a total of 200,000 samples, including 180,000 training samples and 20,000 test samples. The total data size is approximately 9.48 GB, and it is released under the Apache 2.0 license. Supporting two languages, English (en) and Khmer (km), this is a medium-scale dataset with a sample size ranging from 100,000 to 1,000,000, and it is primarily used in research areas such as cross-lingual image-text understanding and machine translation. The data is stored in Parquet format, with a clear train/test split.
创建时间:
2026-03-31
原始信息汇总
数据集概述
基本信息
- 数据集名称: hf_10k_charts
- 托管地址: https://huggingface.co/datasets/vichetkao/graph_translation_eng_kh_200k
- 许可证: apache-2.0
- 任务类别: 图机器学习 (graph-ml)
- 涉及语言: 英语 (en)、高棉语 (km)
- 规模类别: 100K<n<1M
数据内容与结构
- 特征字段:
image_eng: 图像类型,英语图表图像。image_kh: 图像类型,高棉语图表图像。text_eng: 字符串类型,英语文本。text_kh: 字符串类型,高棉语文本。
- 数据划分:
- 训练集 (train): 180,000 个样本,大小约为 8,533,784,973 字节。
- 测试集 (test): 20,000 个样本,大小约为 946,512,640 字节。
- 数据文件:
- 训练集文件路径:
data/hf_charts_train.parquet - 测试集文件路径:
data/hf_charts_test.parquet
- 训练集文件路径:
技术规格
- 总样本数: 200,000
- 总数据集大小: 9,480,297,613 字节 (约 9.48 GB)
- 下载大小: 9,480,297,613 字节 (约 9.48 GB)
搜集汇总
数据集介绍

构建方式
在图表数据跨语言转换的研究领域,graph_translation_eng_kh_200k数据集通过系统化的流程构建而成。该数据集从多样化的图表源中收集原始资料,经过清洗与标注,生成了英语和高棉语的双语配对。具体而言,每个样本包含对应的英语和高棉语图表图像,以及相应的文本描述,确保了视觉与语言模态的严格对齐。数据被划分为训练集与测试集,其中训练集包含18万条样本,测试集包含2万条样本,总数据量达到约9.48GB,为模型训练提供了充足且结构化的资源。
特点
该数据集的核心特点在于其多模态与双语对齐的架构。每个数据点均由英语和高棉语的图像与文本构成,形成了图像到图像、文本到文本的双重翻译对。这种设计不仅支持视觉内容的跨语言转换,也适用于文本描述的翻译任务,为研究图表理解与生成提供了多维度的实验基础。数据规模达到20万条样本,覆盖了广泛的图表类型,确保了内容的多样性与代表性,能够有效促进低资源语言如高棉语在图表处理领域的技术发展。
使用方法
在应用层面,该数据集主要用于训练和评估跨语言图表翻译模型。研究人员可加载数据集的训练分割进行模型训练,利用图像和文本的双语配对学习翻译映射关系。测试集则用于评估模型在未见数据上的性能,衡量其翻译准确性与泛化能力。典型的使用场景包括多模态机器翻译、图表图像生成以及低资源语言处理任务,通过HuggingFace平台可直接访问数据文件,支持高效的数据加载与预处理流程。
背景与挑战
背景概述
在跨语言信息处理与图形机器学习领域,多模态数据集的构建对于推动机器翻译与视觉语言理解具有重要意义。graph_translation_eng_kh_200k数据集由相关研究机构于近年创建,旨在解决英语与高棉语之间的图文跨语言转换问题。该数据集包含20万条双语图文对,核心研究聚焦于如何通过视觉与文本的协同表示,促进低资源语言在图形环境下的自动翻译与生成任务。其规模与多模态特性为跨语言图形分析、文档数字化及文化保存提供了关键数据支撑,对自然语言处理与计算机视觉的交叉研究产生了积极影响。
当前挑战
该数据集所针对的领域挑战在于低资源语言的图文跨模态对齐与翻译,高棉语作为资源稀缺语言,其视觉文本对应关系的建模缺乏充足基准,导致模型在语义保真与结构一致性方面面临困难。构建过程中的挑战涉及双语图文数据的高质量采集与标注,需确保图像中的图形元素与两种语言文本在语义和空间上精确匹配,同时克服数据噪声、格式异构以及文化语境差异带来的标注复杂性,这些因素共同增加了数据集构建的技术门槛与可靠性要求。
常用场景
经典使用场景
在图形机器学习领域,graph_translation_eng_kh_200k数据集为跨语言图表理解与生成任务提供了重要支撑。该数据集包含20万对英语和高棉语的图表图像及其对应文本,经典使用场景聚焦于训练多模态机器翻译模型,旨在实现图表内容在不同语言间的自动转换。通过结合视觉与文本信息,研究者能够开发出能够解析图表结构并生成目标语言描述的算法,从而促进跨语言信息无障碍流通。
实际应用
在实际应用层面,graph_translation_eng_kh_200k数据集可广泛应用于教育、新闻媒体和国际商务等领域。例如,在教育资源开发中,该数据集支持自动生成多语言版本的图表教材,助力知识传播;在新闻行业,它能快速将图表数据转换为不同语言版本,提升信息传达效率。这些应用显著降低了跨语言沟通成本,促进了文化和技术交流。
衍生相关工作
基于该数据集,已衍生出多项经典研究工作,主要集中在多模态机器翻译和跨语言图表分析方向。例如,研究者利用该数据集开发了端到端的图表翻译模型,实现了从英语图表到高棉语文本的自动转换;同时,也有工作专注于图表图像的特征提取与对齐技术,为多语言视觉问答系统提供了新思路。这些成果进一步拓展了图形机器学习的研究边界。
以上内容由遇见数据集搜集并总结生成



