rtw-cmu/nell
收藏数据集卡片:Never Ending Language Learning (NELL)
数据集描述
数据集概述
该数据集提供由CMU的Never Ending Language Learner (NELL)提取的第1115版信念和第1110版候选信念。NELL是一个开放信息抽取系统,试图从5亿个网页的Clueweb09和通用网络搜索中读取信息。
数据集包含四个配置:nell_belief、nell_candidate、nell_belief_sentences和nell_candidate_sentences。nell_belief和nell_candidate定义了信念的确定性,而两个句子配置提取了用适用实体的最佳字面字符串填充的CPL句子模式,并提供了包含实体和关系的网络搜索中找到的句子。
nell_belief_sentences大约有2100万条记录,nell_candidate_sentences大约有1亿条句子。
支持的任务和排行榜
[更多信息需要]
语言
英语,可能还有其他语言
数据集结构
数据实例
数据集有四个配置:nell_belief、nell_candidate、nell_belief_sentences和nell_candidate_sentences。
nell_belief和nell_candidate定义了以下字段:
- entity: 实体
- relation: 关系
- value: 值
- iteration_of_promotion: 提升迭代次数
- score: 置信度分数
- source: 信念来源
- entity_literal_strings: 实体字面字符串
- value_literal_strings: 值字面字符串
- best_entity_literal_string: 最佳实体字面字符串
- best_value_literal_string: 最佳值字面字符串
- categories_for_entity: 实体类别
- categories_for_value: 值类别
- candidate_source: 候选来源
nell_belief_sentences和nell_candidate_sentences定义了以下字段:
- entity: 实体
- relation: 关系
- value: 值
- score: 置信度分数
- sentence: 原始句子
- count: 句子计数
- url: URL
- sentence_type: 句子类型(CPL或OE)
数据字段
对于nell_belief和nell_candidate配置:
- entity: 实体
- relation: 关系
- value: 值
- iteration_of_promotion: 提升迭代次数
- score: 置信度分数
- source: 信念来源
- entity_literal_strings: 实体字面字符串
- value_literal_strings: 值字面字符串
- best_entity_literal_string: 最佳实体字面字符串
- best_value_literal_string: 最佳值字面字符串
- categories_for_entity: 实体类别
- categories_for_value: 值类别
- candidate_source: 候选来源
对于nell_belief_sentences和nell_candidate_sentences配置:
- entity: 实体
- relation: 关系
- value: 值
- score: 置信度分数
- sentence: 原始句子
- url: URL
- count: 句子计数
- sentence_type: 句子类型(CPL或OE)
数据分割
没有分割。
数据集创建
策划理由
该数据集是通过多年运行NELL系统在网络数据上收集和创建的。
源数据
初始数据收集和规范化
NELL搜索网络的一个子集(Clueweb09)和开放网络,使用各种开放信息抽取算法,包括模式匹配。
源语言生产者
NELL的作者在卡内基梅隆大学和来自Clueweb09和开放网络的数据。
注释
注释过程
NELL的各种开放信息抽取模块。
注释者
机器注释。
个人和敏感信息
未知,但可能包含著名个人的名字。
使用数据集的注意事项
数据集的社会影响
工作的目标是帮助机器学习阅读和理解网络。
偏见讨论
由于数据是从网络上收集的,可能存在偏见文本和关系。
[更多信息需要]
其他已知限制
NELL收集的关系和概念并非100%准确,可能存在错误(可能高达30%的错误)。
我们没有在OE句子中标记实体和值,这可能是未来的扩展。
附加信息
数据集策展人
卡内基梅隆大学的NELL作者
许可信息
在http://rtw.ml.cmu.edu/rtw/resources上似乎没有许可证。数据由CMU在网络上提供。
引用信息
@inproceedings{mitchell2015, added-at = {2015-01-27T15:35:24.000+0100}, author = {Mitchell, T. and Cohen, W. and Hruscha, E. and Talukdar, P. and Betteridge, J. and Carlson, A. and Dalvi, B. and Gardner, M. and Kisiel, B. and Krishnamurthy, J. and Lao, N. and Mazaitis, K. and Mohammad, T. and Nakashole, N. and Platanios, E. and Ritter, A. and Samadi, M. and Settles, B. and Wang, R. and Wijaya, D. and Gupta, A. and Chen, X. and Saparov, A. and Greaves, M. and Welling, J.}, biburl = {https://www.bibsonomy.org/bibtex/263070703e6bb812852cca56574aed093/hotho}, booktitle = {AAAI}, description = {Papers by William W. Cohen}, interhash = {52d0d71f6f5b332dabc1412f18e3a93d}, intrahash = {63070703e6bb812852cca56574aed093}, keywords = {learning nell ontology semantic toread}, note = {: Never-Ending Learning in AAAI-2015}, timestamp = {2015-01-27T15:35:24.000+0100}, title = {Never-Ending Learning}, url = {http://www.cs.cmu.edu/~wcohen/pubs.html}, year = 2015 }
贡献
感谢@ontocord添加此数据集。




