DriveThru
收藏arXiv2024-11-15 更新2024-11-16 收录
下载链接:
https://github.com/ragambahasa
下载链接
链接失效反馈官方服务:
资源简介:
DriveThru数据集是由万隆理工学院和阿米科姆日惹大学等机构创建的,旨在通过数字化文档来支持印度尼西亚低资源语言的自然语言处理研究。该数据集包含超过83,000条词汇对,涵盖了四种低资源印度尼西亚语言:爪哇语、巽他语、米南卡保语和巴厘语。数据集的创建过程包括使用光学字符识别(OCR)技术从印刷文档中提取文本,并利用大型语言模型(LLM)进行后OCR校正。该数据集主要应用于提高印度尼西亚低资源语言的文本识别准确性和语言资源建设,以促进这些语言在NLP技术中的应用。
The DriveThru dataset was developed by institutions including the Bandung Institute of Technology and Amikom Yogyakarta University, aiming to support natural language processing (NLP) research on low-resource Indonesian languages via digitized documents. This dataset contains over 83,000 lexical pairs, covering four low-resource Indonesian languages: Javanese, Sundanese, Minangkabau, and Balinese. The dataset construction process includes extracting text from printed documents using Optical Character Recognition (OCR) technology, followed by post-OCR correction with Large Language Models (LLMs). This dataset is primarily applied to improve text recognition accuracy and language resource construction for low-resource Indonesian languages, so as to promote the application of these languages in NLP technologies.
提供机构:
万隆理工学院, 阿米科姆日惹大学, 迪安努斯瓦安托罗大学, 波士顿大学
创建时间:
2024-11-14
搜集汇总
数据集介绍

构建方式
DriveThru Benchmark Dataset的构建方式主要依赖于文档数字化技术。该数据集通过光学字符识别(OCR)技术,从印度尼西亚的印刷文档中提取文本内容,包括书籍、杂志和报纸等。这些文档主要来源于印度尼西亚国家图书馆和教育、文化、研究与技术部的在线资源库。数据集的构建过程中,首先对上传的图像进行预处理,然后使用TesseractOCR进行文本提取,最后通过大型语言模型(LLM)进行后OCR校正,以提高文本的准确性。
特点
DriveThru Benchmark Dataset的主要特点在于其针对印度尼西亚低资源语言的独特性。该数据集涵盖了四种低资源语言:爪哇语、巽他语、米南加保语和巴厘语,这些语言在自然语言处理(NLP)研究中较少被关注。此外,数据集采用了先进的OCR和后OCR校正技术,确保了文本提取的高准确性。数据集还提供了详细的词汇数据集和相似词列表,以支持后续的NLP研究和应用。
使用方法
DriveThru Benchmark Dataset的使用方法相对简单。用户可以通过平台上传图像文件(如扫描的印刷文档),系统将自动进行图像预处理、文本提取和后OCR校正。用户无需创建账户或登录,只需上传文件即可获取提取的文本。数据集还提供了评估脚本和模型,用户可以利用这些资源进行进一步的分析和研究。此外,数据集的GitHub仓库中提供了详细的文档和示例,帮助用户更好地理解和使用该数据集。
背景与挑战
背景概述
印尼作为世界上语言多样性最为丰富的国家之一,拥有超过700种本地语言,其中许多在自然语言处理(NLP)研究和技术的应用中仍未得到充分代表。尽管近年来已有多项努力致力于为印尼语言构建NLP资源,但这些努力大多集中在手动资源的创建上,难以扩展到更多语言。DriveThru Benchmark Dataset由Mohammad Rifqi Farhansyah等人于2024年创建,旨在通过数字化现有印刷资源,如书籍、杂志和报纸,来构建印尼本地语言的数字语言资源。该数据集的核心研究问题是如何通过光学字符识别(OCR)技术及其后处理校正,提高印尼低资源语言的文本提取准确性,从而推动这些语言在NLP领域的研究和技术发展。
当前挑战
DriveThru Benchmark Dataset在构建过程中面临多项挑战。首先,印尼语言的多样性和低资源特性使得数据收集和标注变得复杂且耗时。其次,OCR技术在处理印尼本地语言时,尤其是低资源语言,常出现字符识别错误和数据噪声问题。此外,现有的OCR后处理校正方法在自动化和准确性方面仍有待提升,特别是在处理未见过的字体和复杂排版时。最后,尽管该数据集已展示出在提高字符和词准确率方面的潜力,但在处理高度扭曲或不清晰的OCR输出时,仍存在显著的局限性,这需要进一步的技术改进和创新。
常用场景
经典使用场景
DriveThru Benchmark Dataset 主要用于印尼本地语言文档的数字化提取和光学字符识别(OCR)后处理校正。该数据集通过收集和数字化印尼本地语言的书籍、杂志和报纸等印刷资源,为自然语言处理(NLP)研究提供了丰富的语言资源。研究者可以利用该数据集进行OCR技术的评估和改进,特别是针对低资源语言的OCR后处理校正,以提高字符和单词的准确率。
衍生相关工作
基于 DriveThru Benchmark Dataset,研究者们开发了多种OCR后处理校正模型,如使用大型语言模型(LLMs)进行零样本和少样本学习的方法。这些模型在提高OCR输出准确性方面表现出色,特别是在处理低资源语言时。此外,该数据集还激发了针对印尼本地语言的NLP资源构建和扩展的研究,推动了相关技术和工具的发展,为印尼本地语言的数字化和信息化提供了技术支持。
数据集最近研究
最新研究方向
在自然语言处理(NLP)领域,DriveThru Benchmark Dataset的最新研究方向主要集中在通过光学字符识别(OCR)技术对印尼本地语言文档进行数字化处理,以构建高质量的语言资源。研究者们不仅利用现有的OCR系统如TesseractOCR进行文本提取,还引入了大型语言模型(LLMs)如Llama 3和GPT-4进行后OCR校正,以提高字符和词的准确率。此外,该研究还探索了低资源语言如爪哇语、巽他语、米南卡保语和巴厘语的OCR和后OCR校正技术,旨在通过数字化现有印刷资源,如书籍、杂志和报纸,来扩展印尼语言资源的构建。这一研究不仅推动了印尼本地语言在NLP中的应用,也为其他低资源语言的数字化和资源构建提供了新的思路和方法。
相关研究论文
- 1DriveThru: a Document Extraction Platform and Benchmark Datasets for Indonesian Local Language Archives万隆理工学院、阿米科姆日惹大学、迪安努斯瓦安托罗大学、波士顿大学 · 2024年
以上内容由遇见数据集搜集并总结生成



