rtw-cmu/nell

Name: rtw-cmu/nell
Creator: rtw-cmu
Published: 2024-01-18 11:10:17
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/rtw-cmu/nell

下载链接

链接失效反馈

官方服务：

资源简介：

NELL（Never Ending Language Learning）数据集是由卡内基梅隆大学开发的，旨在通过不断学习从非结构化网页中提取结构化信息。数据集包含四个配置：nell_belief、nell_candidate、nell_belief_sentences和nell_candidate_sentences，分别提供了NELL系统提取的信念和候选信念的版本。数据集主要用于文本检索任务，如实体链接检索和事实检查检索。数据集的语言为英语，数据来源于Clueweb09和开放网页。数据集的创建过程涉及多种开放信息提取算法，包括模式匹配。数据集的特点包括实体、关系、值等字段，以及置信度分数和来源信息。

The NELL (Never Ending Language Learning) dataset was developed by Carnegie Mellon University, aiming to continuously extract structured information from unstructured web pages. The dataset comprises four configurations: nell_belief, nell_candidate, nell_belief_sentences, and nell_candidate_sentences, which respectively offer versions of the beliefs and candidate beliefs extracted by the NELL system. It is primarily utilized for text retrieval tasks, including entity linking retrieval and fact-checking retrieval. The dataset is in English, with its data sourced from Clueweb09 and the open web. The creation of this dataset involves multiple open information extraction algorithms, including pattern matching. Key characteristics of the dataset include fields such as entities, relations, and values, alongside confidence scores and source metadata.

提供机构：

rtw-cmu

原始信息汇总

数据集卡片：Never Ending Language Learning (NELL)

数据集描述

数据集概述

该数据集提供由CMU的Never Ending Language Learner (NELL)提取的第1115版信念和第1110版候选信念。NELL是一个开放信息抽取系统，试图从5亿个网页的Clueweb09和通用网络搜索中读取信息。

数据集包含四个配置：nell_belief、nell_candidate、nell_belief_sentences和nell_candidate_sentences。nell_belief和nell_candidate定义了信念的确定性，而两个句子配置提取了用适用实体的最佳字面字符串填充的CPL句子模式，并提供了包含实体和关系的网络搜索中找到的句子。

nell_belief_sentences大约有2100万条记录，nell_candidate_sentences大约有1亿条句子。

支持的任务和排行榜

[更多信息需要]

语言

英语，可能还有其他语言

数据集结构

数据实例

数据集有四个配置：nell_belief、nell_candidate、nell_belief_sentences和nell_candidate_sentences。

nell_belief和nell_candidate定义了以下字段：

entity: 实体
relation: 关系
value: 值
iteration_of_promotion: 提升迭代次数
score: 置信度分数
source: 信念来源
entity_literal_strings: 实体字面字符串
value_literal_strings: 值字面字符串
best_entity_literal_string: 最佳实体字面字符串
best_value_literal_string: 最佳值字面字符串
categories_for_entity: 实体类别
categories_for_value: 值类别
candidate_source: 候选来源

nell_belief_sentences和nell_candidate_sentences定义了以下字段：

entity: 实体
relation: 关系
value: 值
score: 置信度分数
sentence: 原始句子
count: 句子计数
url: URL
sentence_type: 句子类型（CPL或OE）

数据字段

对于nell_belief和nell_candidate配置：

entity: 实体
relation: 关系
value: 值
iteration_of_promotion: 提升迭代次数
score: 置信度分数
source: 信念来源
entity_literal_strings: 实体字面字符串
value_literal_strings: 值字面字符串
best_entity_literal_string: 最佳实体字面字符串
best_value_literal_string: 最佳值字面字符串
categories_for_entity: 实体类别
categories_for_value: 值类别
candidate_source: 候选来源

对于nell_belief_sentences和nell_candidate_sentences配置：

entity: 实体
relation: 关系
value: 值
score: 置信度分数
sentence: 原始句子
url: URL
count: 句子计数
sentence_type: 句子类型（CPL或OE）

数据分割

没有分割。

数据集创建

策划理由

该数据集是通过多年运行NELL系统在网络数据上收集和创建的。

源数据

初始数据收集和规范化

NELL搜索网络的一个子集（Clueweb09）和开放网络，使用各种开放信息抽取算法，包括模式匹配。

源语言生产者

NELL的作者在卡内基梅隆大学和来自Clueweb09和开放网络的数据。

注释

注释过程

NELL的各种开放信息抽取模块。

注释者

机器注释。

个人和敏感信息

未知，但可能包含著名个人的名字。

使用数据集的注意事项

数据集的社会影响

工作的目标是帮助机器学习阅读和理解网络。

偏见讨论

由于数据是从网络上收集的，可能存在偏见文本和关系。

[更多信息需要]

其他已知限制

NELL收集的关系和概念并非100%准确，可能存在错误（可能高达30%的错误）。

我们没有在OE句子中标记实体和值，这可能是未来的扩展。

附加信息

数据集策展人

卡内基梅隆大学的NELL作者

许可信息

在http://rtw.ml.cmu.edu/rtw/resources上似乎没有许可证。数据由CMU在网络上提供。

引用信息

@inproceedings{mitchell2015, added-at = {2015-01-27T15:35:24.000+0100}, author = {Mitchell, T. and Cohen, W. and Hruscha, E. and Talukdar, P. and Betteridge, J. and Carlson, A. and Dalvi, B. and Gardner, M. and Kisiel, B. and Krishnamurthy, J. and Lao, N. and Mazaitis, K. and Mohammad, T. and Nakashole, N. and Platanios, E. and Ritter, A. and Samadi, M. and Settles, B. and Wang, R. and Wijaya, D. and Gupta, A. and Chen, X. and Saparov, A. and Greaves, M. and Welling, J.}, biburl = {https://www.bibsonomy.org/bibtex/263070703e6bb812852cca56574aed093/hotho}, booktitle = {AAAI}, description = {Papers by William W. Cohen}, interhash = {52d0d71f6f5b332dabc1412f18e3a93d}, intrahash = {63070703e6bb812852cca56574aed093}, keywords = {learning nell ontology semantic toread}, note = {: Never-Ending Learning in AAAI-2015}, timestamp = {2015-01-27T15:35:24.000+0100}, title = {Never-Ending Learning}, url = {http://www.cs.cmu.edu/~wcohen/pubs.html}, year = 2015 }

贡献

感谢@ontocord添加此数据集。

搜集汇总

数据集介绍

构建方式

NELL数据集由卡内基梅隆大学的Never Ending Language Learner（NELL）系统构建，该系统通过持续从5亿网页的Clueweb09数据集和通用网络搜索中提取信息。NELL系统采用半监督学习方法，结合多种提取技术，如模式匹配和开放网络搜索，以识别和提取实体、关系及其类别实例。这些提取的实例随后被添加到不断增长的结构化知识库中，并通过自我监督的训练方法不断优化提取算法。

使用方法

NELL数据集适用于多种自然语言处理任务，如实体链接检索、事实核查检索和关系抽取。研究者可以通过加载不同的配置（如nell_belief或nell_belief_sentences）来获取所需的数据子集。数据集的特征包括实体、关系、值、置信度评分、来源信息等，这些特征可以用于训练和评估各种信息抽取和知识图谱构建模型。使用时，建议结合NELL系统的研究论文和相关资源，以更好地理解和利用数据集。

背景与挑战

背景概述

NELL（Never-Ending Language Learner）数据集由卡内基梅隆大学的研究人员于2015年创建，旨在构建一个能够从不间断地从非结构化网页中提取结构化信息的机器学习系统。该数据集的核心研究问题是开发一种能够持续学习并改进其信息提取能力的系统，从而生成一个与网络内容相匹配的知识库。NELL系统通过使用初始本体定义的数百个类别和关系，以及从500亿网页和搜索引擎API中获取的数据，24小时不间断地运行，以提取新的类别和关系实例，并不断优化其提取方法。这一研究对自然语言处理和知识图谱构建领域产生了深远影响。

当前挑战

NELL数据集在构建过程中面临多个挑战。首先，从海量网页中提取结构化信息需要高效的算法和强大的计算资源。其次，由于数据来源于开放网络，存在文本和关系的偏见问题，这可能导致提取的信息不准确。此外，NELL的置信度评分并非概率性的，这使得评估提取信息的可靠性变得复杂。最后，尽管NELL系统在不断改进，但其提取的关系和概念仍可能存在高达30%的错误率，这限制了其在实际应用中的准确性和可靠性。

常用场景

经典使用场景

在自然语言处理领域，NELL数据集的经典使用场景主要集中在实体链接和事实验证任务上。通过分析NELL数据集中的实体、关系和值的三元组，研究者可以训练模型以识别和链接文本中的实体，并验证这些实体之间的关系是否符合已知的事实。这种应用不仅提升了信息抽取的准确性，还为构建知识图谱提供了丰富的数据支持。

解决学术问题

NELL数据集解决了自然语言处理中长期存在的信息抽取和知识库构建问题。传统的信息抽取方法依赖于手工标注的数据，而NELL通过自动化的方式从大量非结构化文本中提取结构化知识，极大地减少了人工干预的需求。这不仅提高了知识库的更新速度，还为后续的语义分析和推理提供了坚实的基础。

实际应用

在实际应用中，NELL数据集被广泛用于搜索引擎优化、智能问答系统和推荐系统等领域。例如，搜索引擎可以利用NELL数据集中的实体和关系信息，提高搜索结果的相关性和准确性；智能问答系统则可以通过NELL数据集中的事实验证信息，提供更加可靠的答案。此外，推荐系统也可以利用NELL数据集中的用户兴趣和产品属性信息，进行更加精准的推荐。

数据集最近研究