The Knesset Corpus

Name: The Knesset Corpus
Creator: 海法大学
Published: 2025-06-02 08:32:04
License: 暂无描述

arXiv2025-06-02 更新2024-06-21 收录

下载链接：

https://huggingface.co/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

克奈塞特语料库是由以色列议会构建的大规模希伯来语议会记录数据集，收录1998-2022年间全体会议与委员会审议的完整文本。该语料包含3283万条句子及3.84亿个词汇标记，数据源自议会档案的数字化原始文件，经过系统性的文本提取、元数据关联和语言学标注处理。该资源主要服务于计算社会科学领域，为研究政治话语演变、社会趋势分析及跨学科语言研究提供重要基础。

The Knesset Corpus is a large-scale Hebrew parliamentary records dataset developed by the Knesset, the Israeli parliament. It contains complete transcripts of plenary sessions and committee deliberations spanning from 1998 to 2022. The corpus includes 32.83 million sentences and 384 million word tokens. The data is sourced from digitized original documents of parliamentary archives, and has undergone systematic text extraction, metadata association and linguistic annotation processing. This resource primarily serves the field of computational social science, providing an important foundation for research on political discourse evolution, social trend analysis and interdisciplinary linguistic studies.

提供机构：

海法大学

创建时间：

2024-05-28

搜集汇总

数据集介绍

构建方式

MM-Food-100K数据集通过创新的社区贡献与大型视觉语言模型自动化质量审核相结合的方式构建。数据采集流程采用了两阶段AI增强的工作流，包括初步质量审核和最终质量审核，确保数据的准确性和完整性。此外，数据集利用Codatta协议，通过区块链技术追踪数据来源，实现了贡献者的可验证归属和基于版税的奖励机制。

使用方法

MM-Food-100K数据集适用于图像分类、食材提取、分量估计和营养预测等多种AI任务。用户可以通过数据集提供的JSON元数据块访问图像链接和结构化标注。数据集分为公开子集（10%）和商业子集（90%），研究社区可免费使用公开子集。使用该数据集进行模型微调时，建议参考论文中的实验设置，采用轻量级的监督微调方法，以充分利用其多层次标注的优势。

背景与挑战

背景概述

MM-Food-100K是由Binance Wallet与Codatta社区合作开发的高质量多模态食品智能数据集，发布于2025年。该数据集包含10万条经过严格筛选的样本，涵盖家庭自制、餐厅、生鲜及包装食品等多种类型，每一条记录均包含图像及多层次结构化标注（如菜品名称、成分、营养信息等）。其核心研究问题聚焦于通过真实世界数据提升AI在食品识别、营养预测等任务中的表现。该数据集的创新性在于结合区块链技术确保数据来源的可验证性，并通过Codatta协议实现贡献者的持续性收益分享，为社区驱动的数据采集提供了新范式。

当前挑战

构建MM-Food-100K面临双重挑战：领域问题方面，需解决食品图像识别中多样性不足（如地域性菜品覆盖有限）、标注深度欠缺（如缺乏成分与营养关联）以及真实场景数据稀缺的问题；技术实现方面，需平衡大规模社区贡献的数据质量与成本，设计两阶段AI辅助审核流程以过滤低质量提交，同时通过区块链协议确保数据来源透明性并实现复杂的权益分配机制。此外，营养数据的动态性（如季节性菜单变化）和家庭自制食品的量化不确定性也增加了标注验证的难度。

常用场景

经典使用场景

在食品智能研究领域，MM-Food-100K数据集因其多模态特性和丰富的结构化标注而成为经典工具。该数据集广泛应用于基于图像的食品分类任务，如菜肴识别、食材提取及营养分析。通过结合视觉与文本信息，研究者能够训练出高精度的模型，显著提升食品识别的准确性和泛化能力。

解决学术问题

MM-Food-100K有效解决了食品数据集中常见的多样性不足、标注单一及真实性偏差等问题。其多层级标注框架支持从基础分类到复杂回归任务的研究，为营养估算、食谱推荐等学术课题提供了可靠数据基础。实验表明，基于该数据集微调的模型在热量预测等任务中性能显著优于原始大模型。

实际应用

该数据集在健康管理、智能餐饮等领域具有重要应用价值。通过整合菜肴识别与营养分析功能，可开发个性化饮食日志应用或实时卡路里测算工具。其区块链溯源机制还支持食品真实性验证，为餐饮行业的质量控制提供了新范式。

数据集最近研究