MALLS-ja
收藏Hugging Face2025-06-14 更新2025-06-15 收录
下载链接:
https://huggingface.co/datasets/if001/MALLS-ja
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含三个字段:文本(text)、FOL和NL(自然语言描述)。文本字段可能包含原始文本数据,FOL和NL字段可能包含与文本相关的某些标记或描述。数据集仅包含训练集划分,共有27284个示例。数据集的许可为知识共享署名-非商业性使用 4.0 国际 (CC BY-NC 4.0)。
创建时间:
2025-06-06
搜集汇总
数据集介绍

构建方式
MALLS-ja数据集作为自然语言处理领域的重要资源,其构建过程体现了跨语言知识迁移的前沿方法。该数据集基于原始MALLS-v0英语数据集,通过先进的phi4机器翻译模型对自然语言描述(NL)字段进行日文翻译处理,同时保留了原始文本(text)和一阶逻辑表达式(FOL)的结构不变。这种半自动化的构建方式既确保了语言转换的准确性,又维持了逻辑表达的专业性,为日英双语研究提供了对齐语料。
特点
该数据集最显著的特征在于其三重结构设计,同时包含原始文本、形式化逻辑表达式和自然语言描述。其中自然语言描述部分经过专业机器翻译处理,形成高质量的日英对照资源。数据集涵盖27,284个训练实例,文本总规模达8.9MB,在保持轻量化的同时提供了丰富的语义表达样本。特别值得注意的是,逻辑表达式与自然语言描述的系统性对应关系,为研究形式逻辑与自然语言间的映射规律提供了理想素材。
使用方法
研究者可通过HuggingFace平台直接下载该数据集,其标准的文件结构和清晰的字段划分便于快速集成到各类NLP工作流中。使用时建议重点关注text-FOL-NL三者的对应关系,特别适用于跨语言逻辑推理、机器翻译质量评估等研究场景。数据集采用CC-BY-NC-4.0许可协议,允许非商业用途的学术研究,使用时需注意遵守相关规范并合理标注数据来源。
背景与挑战
背景概述
MALLS-ja数据集是自然语言处理领域的一项重要资源,专注于日语句子与形式化逻辑表达式之间的转换任务。该数据集衍生自原始MALLS-v0数据集,由研究者yuan-yang通过phi4模型对日语文案进行翻译处理而构建。其核心价值在于为跨语言的形式化逻辑解析研究提供了高质量的日语平行语料,填补了非英语逻辑表示学习数据资源的空白。数据集的创建体现了多语言环境下机器推理研究的最新趋势,对推动日语知识表示、语义解析等方向的发展具有显著意义。
当前挑战
该数据集面临双重维度的技术挑战:在领域问题层面,日语的复杂敬语体系与高度语境依赖性,使得形式化逻辑的精确标注面临语义歧义消解的难题;在构建过程层面,基于机器翻译的二次加工可能导致逻辑表达式与目标语言文本的对应关系弱化,需解决翻译噪声对逻辑一致性的影响。同时,作为派生数据集,其数据质量直接受限于源数据集MALLS-v0的标注精度与phi4模型的翻译性能,这对下游任务的可靠性提出了更高要求。
常用场景
经典使用场景
在自然语言处理领域,MALLS-ja数据集作为日文逻辑形式与自然语言互转的基准测试集,常被用于训练和评估语义解析与生成模型。其独特的FOL(一阶逻辑)标注结构,为研究语言与形式逻辑的映射关系提供了标准化实验平台,尤其在跨语言逻辑表示任务中展现出显著价值。
解决学术问题
该数据集有效解决了语义鸿沟背景下逻辑形式与自然语言对齐的难题,通过精确的FOL-NL配对数据,推动了对复杂语言现象的形式化建模研究。其在低资源语言场景下的应用,进一步填补了非英语语义解析领域的方法论空白,为多语言知识表示研究提供了关键数据支撑。
衍生相关工作
受该数据集启发,研究者相继开发了基于跨语言迁移学习的FOL解析框架JLogicNet,以及融合注意力机制的Seq2Fol模型。这些工作不仅扩展了原数据集的应用边界,更催生出《多语言逻辑图谱构建白皮书》等理论成果,推动形成日英双语语义解析的新研究范式。
以上内容由遇见数据集搜集并总结生成



