five

aymansharara/IdiomX

收藏
Hugging Face2026-04-11 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/aymansharara/IdiomX
下载链接
链接失效反馈
官方服务:
资源简介:
--- pretty_name: IdiomX v3 language: - en - ar license: mit dataset_type: text multilinguality: multilingual task_categories: - text-classification - text-generation configs: - config_name: idiomx data_files: - split: idiomx_train path: idiomx_train.parquet - split: idiomx_test path: idiomx_test.parquet - config_name: idiomx_high_quality data_files: - split: idiomx_high_quality_train path: idiomx_high_quality_train.parquet - split: idiomx_high_quality_test path: idiomx_high_quality_test.parquet - config_name: idiomx_balanced data_files: - split: idiomx_balanced_train path: idiomx_balanced_train.parquet - split: idiomx_balanced_test path: idiomx_balanced_test.parquet tags: - idioms - bilingual - english - arabic - semantic-understanding - figurative-language - idiom-detection - multilingual-nlp size_categories: - 100K<n<1M --- # IdiomX v3: A Large-Scale Bilingual Dataset for Idiomatic Expression Understanding ## IdiomX **A Large-Scale Bilingual Dataset for Idiomatic Expression Understanding** **Author:** Ayman Ali Sharara MSc Data Science & Machine Learning – DSTI --- ## Overview **IdiomX v3** is a large-scale, semantically enriched dataset designed for **idiomatic language understanding in context**. It provides: - **174,956 contextualized examples** - **12,823 unique idioms** - **High semantic quality annotations** - **Rich linguistic and contextual features** The dataset supports multiple NLP tasks including: - Idiom Detection (idiomatic vs literal) - Context → Idiom Retrieval - Meaning → Idiom Mapping - Semantic Similarity Modeling - Cross-lingual analysis (EN ↔ AR) --- ## Dataset Statistics | Metric | Value | |--------|------| | Total examples | 174,956 | | Unique idioms | 12,823 | | Unique normalized examples | 172,481 | | Avg examples per idiom | 13.99 | | Reuse factor | 1.04 | | Idiomatic | 45.55% | | Literal | 46.92% | | Borderline | 7.54% | | High-quality | 77.13% | | Medium-or-higher quality | 96.10% | --- ## Research Positioning IdiomX v3 addresses key limitations in existing idiom datasets: - Lack of contextual diversity - Limited semantic validation - Weak cross-lingual support It provides a unified benchmark for idiomatic language understanding across multiple tasks. --- ## Key Properties - **High lexical diversity** - Nearly one unique sentence per row (reuse factor ≈ 1.04) - **Balanced label distribution** - Idiomatic and literal usage are nearly equal - **High semantic quality** - Majority of examples are strongly aligned with their meanings - **Controlled ambiguity** - Borderline cases simulate real-world uncertainty - **Rich annotations** - compositionality - register - learner difficulty - semantic similarity scores --- ## Dataset Variants The dataset is available in multiple configurations: ### 1. 174,956 rows Full Dataset (`idiomx`) ### 2. 123,022 rows High-Quality Dataset (`idiomx_high_quality`) Each variant includes train/test splits. --- ## Data Sources The dataset is constructed using: - **Wiktionary** - **WordNet** - **LLM-based enrichment (example generation, semantic validation, translations)** --- ## Data Quality & Cleaning The dataset underwent a rigorous multi-stage refinement pipeline: - Removal of noisy and invalid examples - Reduction of duplicate and near-duplicate sentences - Semantic validation using embedding similarity - Alignment between idioms, meanings, and context - Filtering of low-quality generated samples Key improvements in v3: - **Very low duplication (reuse factor ≈ 1.04)** - **High semantic consistency** - **Controlled ambiguity to reflect real-world linguistic uncertainty** --- ## Splitting Strategy - Train/test splits are constructed to ensure: - Minimal sentence overlap - Fair evaluation across idioms - Balanced distribution of labels --- ## Key Features - Context-aware idiomatic expressions - English and Arabic meanings - Semantic similarity scoring - Quality annotations (high / medium / low) - Balanced idiom representation (~14 examples per idiom) --- ## Notes - Use **`example`** for modeling - `example_raw` is provided for traceability - `is_idiom` is idiom-level (not example-level) - Prefer `example_usage_label` for supervised tasks --- ## Links - HuggingFace: https://huggingface.co/datasets/aymansharara/IdiomX - GitHub: https://github.com/aymanshar/idiomx-dataset - Kaggle: https://www.kaggle.com/datasets/aymansharara/idiomx - Zenodo: https://doi.org/10.5281/zenodo.19137833 --- ## 📚 Citation If you use this dataset, please cite: Sharara, Ayman Ali (2026). **IdiomX: A Large-Scale Bilingual Dataset for Idiomatic Expression Understanding**. Zenodo. https://doi.org/10.5281/zenodo.19137833 ```bibtex @article{sharara2026idiomx, title={IdiomX: A Large-Scale Bilingual Dataset for Idiomatic Expression Understanding}, author={Sharara, Ayman Ali}, year={2026}, note={Dataset and paper available on GitHub and HuggingFace} } ``` ---
提供机构:
aymansharara
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,习语理解因其语义的非组合性而成为一项具有挑战性的任务。IdiomX v3数据集的构建采用了多源融合与语义增强的策略,其核心数据来源于Wiktionary和WordNet等权威词典,并通过精心设计的LLM管道进行扩展与验证。该流程不仅生成了包含现代俚语和社交网络用语的新颖语料,还引入了法语作为第三语言支持,实现了英语、阿拉伯语和法语的多语言对齐。数据集经过严格的质量控制,包括去噪、去重以及基于嵌入相似度的语义验证,确保了例句与习语含义的高度一致性,最终形成了包含近17.5万条语境化例句的大规模、高质量语料库。
特点
该数据集在习语资源领域展现出鲜明的多维特性。其核心优势在于极高的词汇多样性,例句重复率极低,确保了训练数据的丰富性。数据标注体系精细完备,不仅区分了习语用法、字面用法及边界案例,还涵盖了组合性、语域、学习难度等多维度语言学标签。尤为突出的是其多语言覆盖能力,同时支持英语、阿拉伯语和法语,为跨语言语义理解研究提供了坚实基础。数据集还引入了现代俚语强度、地域性标识等新颖字段,并计算了语义相似度得分与质量分级,能够精准模拟真实语言环境中的语义模糊性与复杂性。
使用方法
为便于研究与应用,IdiomX v3提供了多个经过优化的数据配置版本。用户可通过HuggingFace的`datasets`库直接加载不同变体,例如扩展完整版`idiomx_extended_full`适用于大规模训练与跨语言建模,而高质量子集`idiomx_high_quality`则侧重于高置信度样本。数据集支持多种自然语言处理任务,包括习语检测、语境到习语的检索、语义相似度建模等。研究者可根据任务需求选择相应配置,并利用数据集中预计算的标准化例句、语义质量分数等衍生特征进行模型训练与评估。官方提供的交互式演示空间进一步展示了其在习语检测、混合检索等具体任务上的应用潜力。
背景与挑战
背景概述
在自然语言处理领域,习语理解因其语义的非组合性而构成显著挑战,传统数据集往往受限于语境单一与跨语言资源匮乏。IdiomX v3数据集由Ayman Ali Sharara于2026年创建,旨在构建一个大规模、多语言的习语表达理解基准。该数据集整合了英语、阿拉伯语及法语资源,涵盖逾12,000个独特习语及其17万余条语境化例句,通过语义验证与质量标注,为习语检测、跨语言检索等任务提供了系统化研究基础,推动了计算语言学在比喻性语言处理方面的发展。
当前挑战
习语理解的核心挑战在于其语义的晦涩性与语境依赖性,模型需区分字面与比喻用法,并处理多语言间的文化差异。IdiomX在构建过程中面临数据质量控制的难题,包括消除噪声例句、减少近义重复,以及通过嵌入相似度进行语义对齐。此外,扩展现代俚语与多语言支持时,需平衡生成数据的真实性与多样性,并确保法语等新增语言的注释准确性与一致性,这些挑战共同塑造了数据集的复杂性与实用性。
常用场景
经典使用场景
在自然语言处理领域,习语理解一直是语义解析的难点。IdiomX数据集通过提供大规模、多语言的语境化习语实例,为习语检测与分类任务奠定了基准。该数据集支持模型区分句子中习语的使用是字面意义还是比喻意义,其平衡的标签分布与高质量语义标注,使得研究者能够训练和评估模型在复杂语言现象上的性能。经典使用场景包括构建端到端的习语识别系统,以及开发能够理解上下文依赖的语义相似度模型。
实际应用
在实际应用中,IdiomX数据集能够赋能多语言机器翻译、内容审核与教育技术工具。例如,在翻译系统中,准确识别习语可避免直译错误,提升译文质量;在社交媒体内容分析中,检测俚语与当代习语有助于理解非正式表达与潜在冒犯性语言。此外,该数据集支持构建语言学习平台,通过提供习语的含义解释与语境示例,辅助第二语言学习者掌握地道的表达方式。
衍生相关工作
基于IdiomX数据集,已衍生出一系列经典研究工作,主要集中在多语言习语检测模型、跨语言检索系统以及语义相似度计算框架上。例如,研究者利用其平衡的习语与字面用法样本,训练了基于Transformer的检测器;其提供的阿拉伯语与英语对照数据,促进了双语嵌入模型的开发。此外,数据集支持的混合检索与重排序方法,为信息检索领域提供了新的评估基准,推动了上下文感知的习语理解技术进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作