MGen

Hugging Face2025-05-02 更新2025-05-03 收录

下载链接：

https://huggingface.co/datasets/ilyocoris/MGen

下载链接

链接失效反馈

官方服务：

资源简介：

MGen数据集是一个包含数百万个自然发生的泛化和量化句子的集合，旨在作为研究泛化句子的资源。数据集以CSV文件形式发布，包括主要文件'sentences.csv'，其中包含泛化和量化句子及其相关元数据，但不包含文档上下文。用户可以根据特定的话题或量化词来抽样句子，然后查找这些句子的上下文。

创建时间：

2025-04-18

原始信息汇总

MGen数据集概述

基本信息

许可证: Apache-2.0
任务类别: 文本生成
语言: 英语
标签: 泛型
数据集名称: MGen
规模: 1M<n<10M

数据集描述

MGen数据集是一个包含数百万自然出现的泛型和量化句子的集合，旨在为泛型句子的实证研究提供资源。

数据结构

数据集以多个.csv文件形式发布：

主文件：sentences.csv

包含泛型和量化句子及其元数据：

列名	描述
`id`	句子唯一ID，由`doc_id`和句子在文档中的基数组成
`doc_id`	文档唯一ID（原始文档文本的哈希值）
`text`	目标句子（字符串）
`quantifier`	主句中的量词，包括：`gen`, `all`, `most`, `many`, `some`, `few`, `no`, `often`, `generally`, `typically`, `usually`, `normally`
`source`	原始文档来源，包括：`arxiv`, `peS2o`, `slimpajama`, `refinedweb`, `pile-uncopyrighted`
`score`	基于RoBERTa的泛型分类器得分，大于0.8的句子被选中
`n_words`	句子中的单词数（按空格分割计数）
`quantifier_position`	量词位置，包括：`first_word`或`middle`
`quantifier_category`	量词类别，包括：`gen`, `determiner`, `adverbial`

上下文文档文件

包含来自五个来源的泛型/量化句子的上下文：

列名	描述
`doc_id`	文档唯一ID（原始文档文本的哈希值）
`text`	上下文文本（字符串）
`source`	文档来源

使用建议

建议首先从sentences.csv中采样，找到感兴趣的句子（基于主题、量词或其他原因），然后查找这些子集的上下文。

引用

使用该数据集时，请引用以下论文： bibtex @inproceedings{cilleruelo2025mgen, author = {Gustavo Cilleruelo Calderón and Emily Allaway and Barry Haddow and Alexandra Birch}, title = {MGEN: Millions of Naturally Occurring Generics in Context}, booktitle = {Proceedings of the Society for Computation in Linguistics (SCiL) 2025}, year = {2025}, note = {Forthcoming}, }

搜集汇总

数据集介绍

构建方式

MGen数据集通过从多个学术和网络文本源（包括arXiv、peS2o、slimpajama等）提取自然出现的泛型句和量化句构建而成。采用RoBERTa分类器对句子进行泛型性评分，筛选得分超过0.8的高质量句子。每个句子及其上下文通过哈希算法生成唯一文档标识符（doc_id），确保数据结构的完整性和可追溯性。数据集以CSV格式发布，分为句子文件和上下文文档文件，便于分模块处理和分析。

特点

MGen数据集包含数百万条自然语境下的泛型句和量化句，覆盖多种量化词类型（如'all'、'most'、'typically'等），并标注了量化词位置和类别。其独特之处在于结合了上下文文档，为语言学研究提供了丰富的语境信息。数据来源多样，涵盖学术论文和网络文本，具有较高的代表性和实用性。句子经过严格筛选，确保了语言质量和泛型性标注的准确性。

使用方法

使用MGen数据集时，建议先从sentences.csv中抽样筛选感兴趣的句子（如特定主题或量化词类型），再通过doc_id匹配对应的上下文文档。由于上下文文档体积较大，此分步方法可提高处理效率。数据集支持文本生成和语言分析任务，尤其适合研究泛型句的语义和语用特征。用户可通过提供的哈希算法验证文档标识符，确保数据一致性。

背景与挑战

背景概述

MGen数据集是由Gustavo Cilleruelo Calderón等人于2025年提出的一个大规模自然语言处理资源，专注于通用句和量化句的实证研究。该数据集收录了数百万条自然语境中的通用句和量化句，涵盖了多种量化词类型，如“all”、“most”、“some”等。其数据来源广泛，包括arXiv、peS2o、slimpajama等多个学术和网络文本库。MGen的构建旨在为语言学、计算语言学等领域提供丰富的语料支持，尤其在通用句的语义分析和量化表达研究方面具有重要价值。该数据集的发布为相关领域的实证研究提供了前所未有的数据规模和质量。

当前挑战

MGen数据集在解决通用句和量化句的语义分析问题时，面临多重挑战。首先，通用句的界定和分类本身具有较高的语言学复杂性，量化词的多样性和上下文依赖性增加了数据标注和模型训练的难度。其次，数据构建过程中需处理海量文本的清洗和标注，尤其是从异构来源（如学术论文和网络文本）中提取高质量句子，对自动化工具的准确性和效率提出了严峻考验。此外，上下文信息的整合与存储也带来了技术挑战，因原始文档体积庞大，如何高效检索和管理相关语境成为实际应用中的瓶颈。

常用场景

经典使用场景

在自然语言处理领域，MGen数据集为研究通用句和量化句的语义特性提供了丰富的语料资源。该数据集通过收集数百万条自然语境中的通用句和量化句，为语言模型训练和语义分析奠定了坚实基础。研究人员可依据不同量化词类别筛选句子，深入探究通用表达的句法分布规律。

衍生相关工作

基于MGen数据集衍生的研究推动了通用语言理解的深度发展。Allaway等人利用该数据建立了通用性检测的基准测试，Cilleruelo团队进一步开发出语境感知的通用句生成模型。在跨语言迁移学习方向，该数据集支撑了通用表达的多语言对比研究，催生出系列重要学术成果。

数据集最近研究