malteos/tmp4c-2
收藏Hugging Face2024-07-16 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/malteos/tmp4c-2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个语言或脚本的配置,每个配置的特征包括文本内容、源文件路径、DOI、作者、标题、PDF文件的MD5哈希值、出版商、期刊名称、期刊缩写和出版年份。数据集分为训练集,并提供了每个训练集的字节大小和示例数量。
The dataset contains multiple configurations, each corresponding to different languages or scripts (e.g., Latin, Arabic). The features of each configuration include text content, source file path, DOI, authors, title, PDF file MD5 hash, publisher, journal name, journal abbreviation, and publication year. The dataset is divided into training sets, with the byte size and number of examples provided for each training set.
提供机构:
malteos
原始信息汇总
数据集概述
数据集配置
luo_latn
- 特征:
- text: string
- source_file_path: string
- source_zip_content_path: string
- doi: string
- authors: string
- title: string
- pdf_md5_hash: string
- publisher: string
- journal: string
- journal_abbrev: string
- publication_year: uint32
- 分割:
- train:
- num_bytes: 33655
- num_examples: 5
- train:
- 下载大小: 33655
- 数据集大小: 134620
gla_latn
- 特征:
- text: string
- source_file_path: string
- source_zip_content_path: string
- doi: string
- authors: string
- title: string
- pdf_md5_hash: string
- publisher: string
- journal: string
- journal_abbrev: string
- publication_year: uint32
- 分割:
- train:
- num_bytes: 231302
- num_examples: 26
- train:
- 下载大小: 231302
- 数据集大小: 925208
vie_latn
- 特征:
- text: string
- source_file_path: string
- source_zip_content_path: string
- doi: string
- authors: string
- title: string
- pdf_md5_hash: string
- publisher: string
- journal: string
- journal_abbrev: string
- publication_year: uint32
- 分割:
- train:
- num_bytes: 11881006
- num_examples: 997
- train:
- 下载大小: 11881006
- 数据集大小: 47524024
bos_latn
- 特征:
- text: string
- source_file_path: string
- source_zip_content_path: string
- doi: string
- authors: string
- title: string
- pdf_md5_hash: string
- publisher: string
- journal: string
- journal_abbrev: string
- publication_year: uint32
- 分割:
- train:
- num_bytes: 12321485
- num_examples: 721
- train:
- 下载大小: 12321485
- 数据集大小: 49285940
eng_latn
- 特征:
- text: string
- source_file_path: string
- source_zip_content_path: string
- doi: string
- authors: string
- title: string
- pdf_md5_hash: string
- publisher: string
- journal: string
- journal_abbrev: string
- publication_year: uint32
- 分割:
- train:
- num_bytes: 10634123778
- num_examples: 889480
- train:
- 下载大小: 10634123778
- 数据集大小: 42536495112
lin_latn
- 特征:
- text: string
- source_file_path: string
- source_zip_content_path: string
- doi: string
- authors: string
- title: string
- pdf_md5_hash: string
- publisher: string
- journal: string
- journal_abbrev: string
- publication_year: uint32
- 分割:
- train:
- num_bytes: 266587
- num_examples: 47
- train:
- 下载大小: 266587
- 数据集大小: 1066348
lus_latn
- 特征:
- text: string
- source_file_path: string
- source_zip_content_path: string
- doi: string
- authors: string
- title: string
- pdf_md5_hash: string
- publisher: string
- journal: string
- journal_abbrev: string
- publication_year: uint32
- 分割:
- train:
- num_bytes: 86166
- num_examples: 19
- train:
- 下载大小: 86166
- 数据集大小: 344664
pap_latn
- 特征:
- text: string
- source_file_path: string
- source_zip_content_path: string
- doi: string
- authors: string
- title: string
- pdf_md5_hash: string
- publisher: string
- journal: string
- journal_abbrev: string
- publication_year: uint32
- 分割:
- train:
- num_bytes: 1346518
- num_examples: 183
- train:
- 下载大小: 1346518
- 数据集大小: 5386072
acq_arab
- 特征:
- text: string
- source_file_path: string
- source_zip_content_path: string
- doi: string
- authors: string
- title: string
- pdf_md5_hash: string
- publisher: string
- journal: string
- journal_abbrev: string
- publication_year: uint32
- 分割:
- train:
- num_bytes: 124555
- num_examples: 4
- train:
- 下载大小: 124555
- 数据集大小: 498220
tsn_latn
- 特征:
- text: string
- source_file_path: string
- source_zip_content_path: string
- doi: string
- authors: string
- title: string
- pdf_md5_hash: string
- publisher: string
- journal: string
- journal_abbrev: string
- publication_year: uint32
- 分割:
- train:
- num_bytes: 185810
- num_examples: 26
- train:
- 下载大小: 185810
- 数据集大小: 743240
smo_latn
- 特征:
- text: string
- source_file_path: string
- source_zip_content_path: string
- doi: string
- authors: string
- title: string
- pdf_md5_hash: string
- publisher: string
- journal: string
- journal_abbrev: string
- publication_year: uint32
- 分割:
- train:
- num_bytes: 84664
- num_examples: 13
- train:
- 下载大小: 84664
- 数据集大小: 338656
kea_latn
- 特征:
- text: string
- source_file_path: string
- source_zip_content_path: string
- doi: string
- authors: string
- title: string
- pdf_md5_hash: string
- publisher: string
- journal: string
- journal_abbrev: string
- publication_year: uint32
- 分割:
- train:
- num_bytes: 5548
- num_examples: 1
- train:
- 下载大小: 5548
- 数据集大小: 22192
hat_latn
- 特征:
- text: string
- source_file_path: string
- source_zip_content_path: string
- doi: string
- authors: string
- title: string
- pdf_md5_hash: string
- publisher: string
- journal: string
- journal_abbrev: string
- publication_year: uint32
- 分割:
- train:
- num_bytes: 2611495
- num_examples: 308
- train:
- 下载大小: 2611495
- 数据集大小: 10445980
hau_latn
- 特征:
- text: string
- source_file_path: string
- source_zip_content_path: string
- doi: string
- authors: string
- title: string
- pdf_md5_hash: string
- publisher: string
- journal: string
- journal_abbrev: string
- publication_year: uint32
- 分割:
- train:
- num_bytes: 233864
- num_examples: 23
- train:
- 下载大小: 233864
- 数据集大小: 935456
guj_gujr
- 特征:
- text: string
- source_file_path: string
- source_zip_content_path: string
- doi: string
- authors: string
- title: string
- pdf_md5_hash: string
- publisher: string
- journal: string
- journal_abbrev: string
- publication_year: uint32
- 分割:
- train:
- num_bytes: 1515033
- num_examples: 49
- train:
- 下载大小: 1515033
- 数据集大小: 6060132
nya_latn
- 特征:
- text: string
- source_file_path: string
- source_zip_content_path: string
- doi: string
- authors: string
- title: string
- pdf_md5_hash: string
- publisher: string
- journal: string
- journal_abbrev: string
- publication_year: uint32
- 分割:
- train:
- num_bytes: 122131
- num_examples: 31
- train:
- 下载大小: 122131
- 数据集大小: 488524
war_latn
- 特征:
- text: string
- source_file_path: string
- source_zip_content_path: string
- doi: string
- authors: string
- title: string
- pdf_md5_hash: string
- publisher: string
- journal: string
- journal_abbrev: string
- publication_year: uint32
- 分割:
- train:
- num_bytes: 18737
- num_examples: 4
- train:
- 下载大小: 18737
- 数据集大小: 74948
ajp_arab
- 特征:
- text: string
- source_file_path: string
- source_zip_content_path: string
- doi: string
- authors: string
- title: string
- pdf_md5_hash: string
- publisher: string
- journal: string
- journal_abbrev: string
- publication_year: uint32
- 分割:
- train:
- num_bytes: 1533168
- num_examples: 38
- train:
- 下载大小: 1533168
- 数据集大小: 6132672
slv_latn
- 特征:
- text: string
- source_file_path: string
- source_zip_content_path: string
- doi: string
- authors: string
- title: string
- pdf_md5_hash: string
- publisher: string
- journal: string
- journal_abbrev: string
- publication_year: uint32
- 分割:
- train:
- num_bytes: 33033652
- num_examples: 2066
- train:
- 下载大小: 33033652
- 数据集大小: 132134608
sot_latn
- 特征:
- text: string
- source_file_path: string
- source_zip_content_path: string
- doi: string
- authors: string
- title: string
- pdf_md5_hash: string
- publisher: string
- journal: string
- journal_abbrev: string
- publication_year: uint32
- 分割:
- train:
- num_bytes: 9536
- num_examples: 2
- train:
- 下载大小: 9536
- 数据集大小: 38144
kmb_latn
- 特征:
- text: string
- source_file_path: string
- source_zip_content_path: string
- doi: string
- authors: string
- title: string
- pdf_md5_hash: string
- publisher: string
- journal: string
- journal_abbrev: string
- publication_year: uint32
- 分割:
- train:
- num_bytes: 65269
- num_examples: 4
- train:
- 下载大小: 65269
- 数据集大小: 261076
sun_latn
- 特征:
- text: string
- source_file_path: string
- source_zip_content_path: string
- doi: string
- authors: string
- title: string
- pdf_md5_hash: string
- publisher: string
- journal: string
- journal_abbrev: string
- publication_year: uint32
- 分割:
- train:
- num_bytes: 3539300
- num_examples: 416
- train:
- 下载大小: 3539300
- 数据集大小: 14157200
uzn_latn
- 特征:
- text: string
- source_file_path: string
- source_zip_content_path: string
- doi: string
- authors: string
- title: string
- pdf_md5_hash: string
- publisher: string
- journal: string
- journal_abbrev: string
- publication_year: uint32
- 分割:
- train:
- num_bytes: 3047718
- num_examples: 238
- train:
- 下载大小: 3047718
- 数据集大小: 12190872
ukr_cyrl
- 特征:
- text: string
- source_file_path: string
- source_zip_content_path: string
- doi: string
- authors: string
- title: string
- pdf_md5_hash: string
- publisher: string
- journal: string
- journal_abbrev: string
- publication_year: uint32
- 分割:
- train:
- num_bytes: 112157475
- num_examples: 8090
- train:
- 下载大小: 112157475
- 数据集大小: 448629900
fin_latn
- 特征:
- text: string
- source_file_path: string
- source_zip_content_path: string
- doi: string
- authors: string
- title: string
- pdf_md5_hash: string
- publisher: string
- journal: string
- journal_abbrev: string
- publication_year: uint32
- 分割:
- train:
- num_bytes: 13141800
- train:
搜集汇总
数据集介绍

构建方式
在学术文本挖掘领域,构建多语言数据集需要严谨的文献来源与系统化处理流程。本数据集通过系统采集学术出版物的PDF文档,涵盖英语、乌克兰语、越南语、波斯尼亚语等多种语言及文字体系,包括拉丁、西里尔、阿拉伯等文字。每个条目均从原始PDF中提取文本内容,并保留完整的元数据信息,如数字对象标识符、作者、标题、出版年份及期刊详情,确保了数据来源的可追溯性与学术规范性。数据处理过程注重格式统一与质量校验,为跨语言研究提供了结构化的基础语料。
特点
该数据集的核心特征在于其广泛的语言覆盖与丰富的元数据标注。它囊括了超过三十种语言变体,不仅包含主流语种,也收录了多种使用人口较少的语言,如林加拉语、克丘亚语等,体现了语言多样性的深度。每个样本均附带详尽的学术出版元数据,包括作者、期刊、出版年份及唯一的PDF哈希值,这为文本溯源与版本控制提供了可靠依据。数据以标准化字段组织,便于进行跨语言的对比分析与大规模自然语言处理任务,尤其适合低资源语言模型的训练与评估。
使用方法
在自然语言处理研究中,该数据集适用于多语言模型预训练、跨语言信息检索及低资源语言分析等任务。使用者可通过HuggingFace平台加载特定语言配置,直接访问文本字段及对应的元数据。数据划分为训练集,支持批量读取与流式处理,能够高效集成到机器学习管道中。研究人员可依据出版年份、期刊或语言代码进行筛选,开展历时语言变化分析或领域适应性研究。其结构化设计也便于与其它学术语料库进行融合,以拓展多语言应用的覆盖范围与深度。
背景与挑战
背景概述
在自然语言处理领域,多语言文本数据集的构建对于推动语言模型的跨语言理解能力具有深远意义。malteos/tmp4c-2数据集由研究人员或机构malteos创建,其核心研究问题聚焦于从学术文献中提取多语言文本,以支持低资源语言的机器翻译、文本分类及信息检索等任务。该数据集涵盖了包括拉丁文、阿拉伯文、西里尔文及藏文等多种文字体系的数十种语言,通过整合学术出版物的元数据如作者、标题、期刊及出版年份,为语言技术研究提供了结构化的多语言语料库,显著促进了语言多样性在人工智能中的应用。
当前挑战
该数据集旨在解决多语言自然语言处理中低资源语言数据稀缺的挑战,具体包括语言覆盖不均衡、文本质量参差及领域适应性有限等问题。在构建过程中,面临的主要挑战涉及从PDF格式学术文献中提取文本的准确性,需克服不同文字编码和版面结构的复杂性;同时,数据收集需处理版权与伦理约束,确保元数据如DOI和作者信息的完整性,而部分语言样本量极少,如kea_latn仅含一例,导致数据代表性不足,影响模型训练的泛化能力。
常用场景
经典使用场景
在自然语言处理领域,多语言学术文本数据集为跨语言模型训练提供了关键资源。该数据集汇集了涵盖拉丁、阿拉伯、西里尔等多种文字体系的学术文献,其经典使用场景在于支持大规模多语言预训练任务。研究者能够利用这些结构化的学术语料,构建具备跨语言理解能力的语言模型,从而在机器翻译、文本分类等任务中实现语言间的知识迁移。
实际应用
在实际应用层面,该数据集为开发多语言学术搜索引擎和知识发现系统提供了核心语料。基于这些规范化的学术文本,能够构建支持跨语言文献检索的智能系统,帮助研究人员突破语言障碍获取全球知识。同时,这些数据也可用于构建学术写作辅助工具,为不同语言背景的学者提供术语翻译和风格检查等服务。
衍生相关工作
该数据集衍生出多项重要的研究工作,特别是在多语言语言模型预训练领域。基于此类学术语料构建的模型在XTREME等跨语言理解基准测试中表现出色。相关研究还探索了学术文本的领域自适应方法,以及低资源语言的词汇嵌入学习技术,为后续的跨语言知识图谱构建和学术机器翻译系统开发提供了重要参考。
以上内容由遇见数据集搜集并总结生成



