Describe corpus

github2017-06-16 更新2024-05-31 收录

下载链接：

https://github.com/iarroyof/describe_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个数据集，其中每个文件都与一个英文术语相关联。每个文件包含与该术语相关的文本片段（一行一个），这些片段是从互联网上提取的，符合定义术语的语法模式。数据集包含5911个片段，仅包括那些返回的片段数量大于或等于70的术语。

This is a dataset where each file is associated with an English term. Each file contains text fragments related to the term (one per line), which are extracted from the internet and conform to the syntactic patterns that define the term. The dataset comprises 5911 fragments, including only those terms for which the number of returned fragments is greater than or equal to 70.

创建时间：

2016-06-20

原始信息汇总

数据集概述

数据集描述

内容: 该数据集包含与英文术语相关的文本片段，每个文件名对应一个术语，文件内包含该术语的文本片段。
来源: 文本片段通过信息提取系统Describe从互联网上提取，专注于提取符合术语定义语法模式的片段。
规模: 总计5911个文本片段，仅包含提取片段数大于等于70的47个术语。
存储位置: 纯文本片段存储在~/txt目录，CSV格式存储在~/csv目录。

向量表示

方法: 使用WISSE方法将每个文本片段嵌入为句子向量表示。
特征: 使用300维的FastText词嵌入。
存储位置: 向量以纯文本格式存储在~/vectors/vectors*.mtx文件中。
训练数据: FastText模型基于2012年的Wikipedia数据集训练。

数据集特点

局限性: 约30%的文本片段不包含定义，而是包含定义模式的片段。

引用信息

作者: Arroyo-Fernandez, Ignacio
标题: The Describe Corpus: A Recopilation of Text Snippets Containing Sense Definitions Retrieved from The Web and their Emebddings
年份: 2016
URL: http://github.com/iarroyof/describe_corpus

搜集汇总

数据集介绍

构建方式

在知识工程与自然语言处理领域，术语定义的收集与分析至关重要。Describe corpus数据集的构建采用了一种专用的信息提取系统——Describe，该系统能够从无限制的互联网资源中提取符合特定句法模式的文本片段，这些模式常见于术语定义中。数据集包含了47个英语术语，每个术语对应的文件中包含70条以上由Describe系统返回的文本片段，总计5911条。文本片段以纯文本形式存储在`~/txt`目录，而向量化表示则存储在`~/vectors/vectors*.mtx`文件中。

特点

本数据集显著的特点在于其专注于术语定义的文本片段收集，片段内容来源于互联网的开放资源，覆盖了多个领域。此外，每个文本片段都通过WISSE方法转换为了300维的句子向量表示，使用了基于2012年维基百科语料库训练的FastText词向量模型。值得注意的是，并非所有文本片段都包含完整的定义，约30%的片段仅包含简单的定义模式，而不引入概念。

使用方法

用户在使用Describe corpus数据集时，可以直接访问文本片段的纯文本文件或其向量表示。对于需要进行语义文本相似度标注的研究者，可利用提供的语义标注工具进行进一步的研究。在使用数据集的研究成果发表时，应遵循提供的数据集引用规范，以保障数据集创作者的知识产权得到尊重。

背景与挑战

背景概述

在自然语言处理领域中，词义定义的获取是构建语义理解和知识图谱的关键环节。Describe语料库的创建，旨在通过自动提取互联网上的文本片段，作为词汇定义的语料支持。该数据集由墨西哥国立自治大学的语言工程小组于2016年构建，由Arroyo-Fernández教授主导，专注于搜集包含定义性句型的文本片段。这些片段主要来源于Describe信息提取系统，该系统能够识别并提取符合定义句法模式的网络文本。该数据集不仅丰富了词汇语义学的研究资料，也为相关领域的学术研究提供了坚实基础。

当前挑战

尽管Describe语料库在词汇定义的收集上取得了显著进展，但仍面临诸多挑战。首先，数据集中约30%的文本片段并未真正引入概念，而是仅仅符合简单的定义模式，如‘x是y’的结构，这在语义上并不充分。其次，构建过程中，数据集的规模受限，仅包含返回片段数量大于或等于70的词汇。此外，数据集在向量化表示方面，采用了WISSE方法进行句子向量表示，并使用FastText词向量，这要求研究者在应用数据集时需考虑其预训练模型的适用性和局限性。

常用场景

经典使用场景

在自然语言处理领域，Describe语料库被广泛用于术语定义的文本挖掘研究。该数据集通过为每个英文术语提供与其相关的文本片段，为研究者提供了一个宝贵的资源，使其能够探索和理解术语在不同语境下的定义和用法。

解决学术问题

Describe语料库解决了学术研究中对术语定义的准确识别和提取问题。通过包含预定义的语法模式，该数据集帮助学者们快速定位并分析术语的定义，从而促进了对概念体系的深入理解，提高了语义理解的精确性。

衍生相关工作

基于Describe语料库的研究衍生出了多种相关工作，包括语义文本相似度标注工具的开发，以及利用该数据集进行术语嵌入向量的训练，进一步推动了自然语言处理技术在语义理解方面的研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集