five

owid_charts_en

收藏
Hugging Face2025-06-24 更新2025-06-25 收录
下载链接:
https://huggingface.co/datasets/jinaai/owid_charts_en
下载链接
链接失效反馈
官方服务:
资源简介:
Our World In Data评估数据集,包含从Our World In Data网站采样得到的约5000个图表和文章。该数据集由666个查询(文章中参考图表的文本片段)和1000个独特图表组成。这个特定的数据集是从完整数据集中随机抽取的1000个图表的子集。数据集的'text_description'列包含了使用EasyOCR从图像中提取的OCR文本。
创建时间:
2025-06-10
原始信息汇总

Our World In Data (OWID) Evaluation Dataset 概述

数据集基本信息

  • 来源:Our World In Data (https://ourworldindata.org)
  • 样本量:1000个独特图表(从完整数据集中随机抽取的子样本)
  • 完整数据集:https://huggingface.co/datasets/jjinaai/owid_charts
  • 下载大小:111210969字节
  • 数据集大小:111924520字节

数据集结构

  • 特征
    • query:字符串类型,文章中对图表的引用文本片段
    • image:图像类型,图表图像
    • image_filename:字符串类型,图像文件名
    • text_description:字符串类型,使用EasyOCR从图像中提取的OCR文本
  • 拆分
    • test:1000个样本

示例数据

json { query: "Unsafe water is one of the worlds largest health and environmental problems, particularly for the poorest people . The Global Burden of Disease is a major global study on the causes and risk factors for death and disease published in the medical journal The Lancet . These estimates of the annual number of deaths attributed to a wide range of risk factors are shown here. Lack of access to safe water sources is a leading risk factor for infectious diseases, including cholera, diarrhea , dysentery, hepatitis A, typhoid, and polio . 1 It also exacerbates malnutrition and, in particular, childhood stunting . The chart shows that it ranks globally as a significant risk factor for death.", image: <PIL.PngImagePlugin.PngImageFile image mode=RGBA size=850x600 at 0x7F97BBB9A620>, image_filename: images/clean_water_number-of-deaths-by-risk-factor_60c21d43.png }

引用信息

bibtex @misc{OurWorldInData, author = {Our World in Data}, title = {Our World in Data}, year = {n.d.}, note = {License: CC BY. Data from Our World in Data is made available under the Creative Commons Attribution License.}, url = {https://ourworldindata.org/}, howpublished = {https://ourworldindata.org/}, note = {Accessed: 2024-12-11} }

免责声明

  • 数据集可能包含公开可用的图像或文本数据。
  • 所有数据仅供研究和教育用途。
  • 如有知识产权或版权问题,请联系 "support-data (at) jina.ai"。

版权信息

  • 所有权利归文档原作者所有。
搜集汇总
数据集介绍
main_image_url
构建方式
在数据可视化与全球发展研究领域,owid_charts_en数据集基于国际知名平台Our World in Data的图表资源构建而成。研究团队从约5000张图表及相关文章中抽样形成评估集,通过系统化采集流程整合了666条文本查询与1000张独特图表。该数据集特别采用EasyOCR技术对图表图像进行光学字符识别,将提取的文本信息存储于text_description字段,确保了多模态数据的完整性。
特点
该数据集最显著的特征在于其严谨的多模态数据结构,每条记录包含查询文本、图表图像及OCR提取的文本描述三重信息。图表内容涵盖全球健康、环境等重大议题,如示例中展示的饮用水安全与疾病负担关联研究,具有鲜明的实证研究价值。图像分辨率统一为850x600像素的RGBA格式,文本描述字段则保留了原始图表的完整数据标注,为跨模态检索任务提供了高质量基准。
使用方法
研究者可通过HuggingFace平台直接加载该数据集,其标准化的字段结构支持开箱即用的多模态分析。典型应用场景包括图文匹配模型训练、数据可视化理解等跨模态任务,其中query字段可作为自然语言输入,image字段提供视觉特征提取基础。使用前需注意遵守CC BY许可协议,学术引用应按照提供的BibTeX格式标注数据来源。
背景与挑战
背景概述
Our World In Data (OWID) Evaluation Dataset是由Our World in Data机构创建的数据集,旨在为数据可视化和自然语言处理研究提供支持。该数据集从Our World in Data网站上采样了约5000张图表和相关文章,构建了一个包含666个查询和1000张独特图表的评估集。这些查询是文章中对图表的文本描述,而图表则涵盖了全球健康、环境、经济等多个领域的重要议题。该数据集的创建为跨模态学习、图表理解和信息检索等研究领域提供了宝贵的资源,推动了数据驱动决策和科学传播的发展。
当前挑战
该数据集面临的主要挑战包括跨模态对齐问题和数据构建复杂性。在领域问题方面,如何准确对齐图表图像与文本描述是一个关键挑战,尤其是在处理复杂图表和多语言文本时。构建过程中的挑战则包括数据采样和标注的复杂性,例如从大量图表中选择代表性样本,以及使用OCR技术提取文本描述时的准确性问题。此外,确保数据集的多样性和覆盖范围,同时避免偏见和噪声,也是构建过程中需要克服的难点。
常用场景
经典使用场景
在数据可视化与自然语言处理交叉领域的研究中,owid_charts_en数据集为图文关联分析提供了标准化的评估基准。该数据集通过精心筛选的全球发展数据图表及其对应的文本描述,支持多模态模型在图表理解、文本生成和跨模态检索等任务上的性能测试。研究人员可基于查询语句与图表的对应关系,探索视觉元素与语义信息的深层关联机制。
实际应用
在实际应用中,该数据集支撑了智能数据叙事系统的开发,可自动生成数据图表的分析报告。教育领域利用其构建可视化教学助手,帮助学习者理解复杂统计图表。新闻机构则基于此类技术实现数据新闻的自动化生产,显著提升社会经济议题的传播效率。政府部门亦可借助相关模型快速分析公共卫生等领域的趋势图表。
衍生相关工作
围绕该数据集衍生的经典研究包括ChartQA等图表问答系统,以及基于跨模态预训练的图表摘要生成框架。多项工作探索了Transformer架构在图表理解任务中的适应性改进,如ChartTransformer专门针对统计图表设计了空间编码模块。此外,该数据集还促进了OCR技术与语义解析的结合研究,为专业领域图表的多模态处理提供了新范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作