MGEN
收藏arXiv2025-09-30 更新2025-11-20 收录
下载链接:
https://hf-mirror.com/datasets/ilyocoris/MGen
下载链接
链接失效反馈官方服务:
资源简介:
MGEN是一个包含超过410万条自然出现的泛化和量化句子的数据集,这些句子从各种文本来源中提取。数据集中的句子具有长的上下文文档,对应于网站和学术论文,涵盖了11种不同的量化词。MGEN是最大的、最多样化的自然出现的泛化句子数据集,为大型计算研究打开了大门。数据集是通过一个两步流程挖掘的:一个句法过滤器检测裸复数(这是泛化最常见的语法),然后一个二元分类器将它们标记为泛化或非泛化。该流程应用于ZYDA数据集的一个子集,以收集一个多样化和准确的泛化数据集。数据集的句子长度较长,平均超过16个单词。分析数据集中的词频,我们发现说话者最常使用泛化来概括关于不同种类的内容。
MGEN is a dataset comprising over 4.1 million naturally occurring generic and quantified sentences extracted from a wide range of textual sources. Each sentence in the dataset is associated with long contextual documents from websites and academic papers, and the dataset encompasses 11 distinct quantifiers. MGEN stands as the largest and most diverse dataset of naturally occurring generic sentences to date, unlocking opportunities for large-scale computational research. The dataset was constructed via a two-step mining pipeline: first, a syntactic filter identifies bare plurals, the most prevalent grammatical structure for generic expressions, then a binary classifier labels these sentences as either generic or non-generic. This pipeline was applied to a subset of the ZYDA dataset to curate a diverse and high-quality generic sentence dataset. The sentences in this dataset are relatively long, with an average length exceeding 16 words. An analysis of word frequencies within the dataset shows that speakers most commonly use generic statements to generalize across various categories of content.
提供机构:
爱丁堡大学信息学院
创建时间:
2025-09-30
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,构建高质量泛型语句数据集面临语义复杂性与语境依赖性的双重挑战。MGEN采用创新的两阶段流水线构建方法:首先通过句法过滤器从ZYDA语料库中识别具有复数主语和特定动词特征的候选语句,随后利用基于ROBERTA架构的二元分类器进行语义筛选。该分类器在包含3622个语句的测试集上达到0.97的F-1分数,最终从1677万候选语句中精选出414万高质量样本,涵盖网页文档与学术论文等多元文本来源。
特点
MGEN数据集以其规模与多样性著称,包含410万自然发生的泛型与量化语句,其中300万为裸复数泛型语句,110万覆盖11种量化词。该数据集语句平均长度达16.65词,远超传统语言学研究中典型例句的简练风格。语境文档平均超过5000词,为语义分析提供丰富背景。词汇分析显示“人群”是最高频名词,表明泛型语句常用于描述人类行为特征,而生物学与医学领域术语的高频出现则体现了跨学科的语言特征。
使用方法
该数据集为计算语言学研究提供重要基础设施,研究者可通过访问gustavocilleruelo.com/mgen获取完整语料。使用时可结合长语境文档分析泛型语句的语义特征,或通过对比泛型与量化语句探究语言表达差异。在自然语言理解任务中,该数据集支持训练模型识别泛型语句的隐含量化特征,其多样化的文本来源(包括互联网爬取数据和学术论文)为研究不同领域语言表达规律提供丰富素材。量化语句的11种量化词标注为研究语言量化表达提供系统化对比基准。
背景与挑战
背景概述
MGEN数据集由爱丁堡大学信息学院的研究团队于2025年创建,旨在为英语泛型句研究提供大规模自然语境语料。该数据集包含410万条从网络文档和学术论文中提取的泛型句与量化句,覆盖11种量化词类型。作为当前规模最大、来源最多样的自然泛型句资源,MGEN通过系统化挖掘ZYDA语料库中的语境化语料,显著推动了计算语言学对泛型语义认知机制的研究进程。
当前挑战
在泛型句研究领域,核心挑战在于解析其容忍例外与量化动态矛盾的语义特性,例如'乌鸦是黑色的'可接受性不因白化乌鸦存在而失效。数据集构建过程中面临双重挑战:首先需通过句法过滤与语义分类的两阶段流程,从海量文本中精准识别主语为裸复数的泛型结构;其次需克服自然语言中存在的指称歧义,如区分'老虎有条纹'的泛型解读与'前院有老虎'的存在性解读。
常用场景
经典使用场景
在语言哲学与计算语言学交叉领域,MGEN数据集为泛型句研究提供了前所未有的规模支撑。该数据集通过从互联网文本和学术论文中提取的410万条自然发生语句,系统覆盖了11种量化词类型,使得研究者能够在大规模真实语境中分析泛型句的句法特征与语义表达模式。其包含的完整上下文文档为探索语境对泛型量化强度的调节作用提供了理想素材,尤其在研究泛型句的例外容忍机制与量化悖论现象时展现出独特价值。
衍生相关工作
基于MGEN数据集的创新特性,已催生多个重要研究方向。在语言模型评估方面,研究者利用其构建了泛型推理基准测试套件,系统检验模型对例外容忍与属性继承的处理能力。在认知建模领域,该数据集支撑了关于泛型句与双过程认知理论关联性的实证研究。此外,其数据提取流程启发了跨语言泛型句挖掘方法,推动了挪威语等低资源语言的泛型研究进展。
数据集最近研究
最新研究方向
在自然语言处理领域,MGEN数据集作为最大规模的上下文泛型语句资源,正推动计算语言学对泛型语义的深入研究。当前前沿聚焦于探索语言模型如何通过该数据集理解泛型句的例外容忍性与量化悖论特性,尤其在认知科学与人工智能交叉领域引发广泛关注。热点研究包括利用其百万级真实语境样本分析泛型句在社会科学与生物医学文本中的表达模式,以及通过对比显式量化结构揭示人类概括性思维的认知机制。该资源为突破传统理论依赖人工示例的局限提供了实证基础,显著促进了语言理解模型在泛化推理方面的能力演进。
相关研究论文
- 1通过爱丁堡大学信息学院 · 2025年
以上内容由遇见数据集搜集并总结生成



