ner-restaurant-reviews

github2022-05-15 更新2024-05-31 收录

下载链接：

https://github.com/aparnadutta/ner-restaurant-reviews

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于纽约时报餐厅评论中实体标注的语料库，包含多个数据文件和目录，用于自然语言处理任务中的命名实体识别。

This is a corpus of entity annotations from New York Times restaurant reviews, containing multiple data files and directories, intended for named entity recognition tasks in natural language processing.

创建时间：

2022-03-13

原始信息汇总

数据集概述

数据集结构

html_reviews
- 包含纽约时报食品评论的HTML文件。
- 包括url_list.txt，列出相应的URL。
raw_data
- 包含处理过的纽约时报食品评论的txt文件。
- 包括cleaned_reviews.json和edit_cleaned_reviews.json，包含所有处理过的食品评论数据。
- 包括unprocessed_URLs.txt，列出未处理的URL。
tags.json
- 包含实体类型，用于导入标注工具。
small_batch_annotation
- 包含初始小批量标注的JSON文件。
annotated_data
- 包含标注数据及其对应的文件，这些文件已修正以移除编码问题。
all_annotations.txt
- 包含所有标注者在CONLL格式下的所有标注。
adjudicated_annotations.txt
- 包含在CONLL格式下的裁决标注。
counts.txt
- 包含adjudicated_annotations.txt中实体的计数。
final_data_splits
- 包含裁决标注的训练、开发和测试集。

数据处理脚本

review_fetcher.py
- 从纽约时报下载食品评论并存储在html_reviews。
clean_data.py
- 处理和清洗html_reviews，输出raw_data。
prepare_data.py
- 准备raw_data以供标注。
fix_encoding_issue.py
- 修复annotated_data中的编码问题。
data_process_pipeline.py
- 接受annotated_data并处理数据以输出all_annotations.txt。
data_process_utils.py
- 包括支持data_process_pipeline.py的额外函数。
inter_annotator_agreement.py
- 使用all_annotations.txt中的处理数据计算标注者间一致性。
adjudication.py
- 运行裁决以产生黄金标准标注并输出adjudicated_annotations.txt。
create_train_dev_test.py
- 接受adjudicated_annotations.txt并将数据分割成训练、开发和测试集。
NER_restaurant_reviews.ipynb
- 使用final_data_splits运行模型和实验。

搜集汇总

数据集介绍

构建方式

ner-restaurant-reviews数据集的构建过程始于从《纽约时报》获取的餐厅评论HTML文件。通过使用`review_fetcher.py`脚本下载并存储这些HTML文件，随后利用`clean_data.py`脚本进行数据清洗和预处理，生成包含原始评论的`raw_data`目录。接着，`prepare_data.py`脚本将数据准备为适合标注的格式。标注过程通过多轮小批量标注和裁决，最终生成标准化的标注数据，并通过`adjudication.py`脚本生成裁决后的标注文件。最后，`create_train_dev_test.py`脚本将数据划分为训练集、开发集和测试集。

使用方法

使用ner-restaurant-reviews数据集时，首先需通过提供的脚本设置虚拟环境并安装依赖项。随后，用户可通过`NER_restaurant_reviews.ipynb`脚本加载数据集并进行模型训练和实验。数据集已划分为训练集、开发集和测试集，用户可直接使用这些划分进行模型训练和评估。此外，用户还可利用`inter_annotator_agreement.py`脚本计算标注者间一致性，或通过`data_process_pipeline.py`脚本进一步处理数据以满足特定需求。

背景与挑战

背景概述

ner-restaurant-reviews数据集专注于餐厅评论中的命名实体识别（NER）任务，旨在从纽约时报的餐厅评论中提取出具有特定意义的实体。该数据集由多个研究团队共同构建，主要用于自然语言处理领域中的信息抽取任务。数据集的核心研究问题在于如何从非结构化的文本数据中准确识别出与餐厅相关的实体，如菜品名称、餐厅名称、地理位置等。该数据集的出现为餐厅评论的自动化分析和情感分析提供了重要的数据支持，推动了餐饮行业与自然语言处理技术的深度融合。

当前挑战

ner-restaurant-reviews数据集在构建过程中面临多重挑战。首先，餐厅评论文本通常包含大量非标准化的表达和口语化语言，这增加了实体识别的难度。其次，数据集的构建依赖于人工标注，而不同标注者之间的主观差异可能导致标注结果的不一致性，需要通过裁决机制来生成高质量的标注数据。此外，数据预处理阶段需要解决HTML文本的解析、编码问题以及数据清洗的复杂性。这些挑战不仅影响了数据集的构建效率，也对后续模型的训练和评估提出了更高的要求。

常用场景

经典使用场景

ner-restaurant-reviews数据集在自然语言处理领域中被广泛应用于命名实体识别（NER）任务。该数据集包含了大量来自《纽约时报》的餐厅评论，经过清洗和标注后，能够为研究者提供高质量的文本数据。通过该数据集，研究者可以训练和评估NER模型，识别出评论中的关键实体，如餐厅名称、菜品名称、地理位置等，从而提升模型在特定领域的表现。

解决学术问题

ner-restaurant-reviews数据集解决了自然语言处理领域中的多个学术问题。首先，它为NER任务提供了丰富的标注数据，帮助研究者开发更精确的实体识别模型。其次，通过该数据集，研究者可以探索领域特定的NER挑战，如处理非结构化文本中的噪声和歧义。此外，该数据集还支持跨领域迁移学习的研究，为模型在餐厅评论以外的文本数据上的泛化能力提供了实验基础。

实际应用

ner-restaurant-reviews数据集在实际应用中具有广泛的价值。例如，在餐饮行业，该数据集可以用于构建智能推荐系统，通过分析用户评论中的实体信息，推荐符合用户偏好的餐厅或菜品。此外，该数据集还可以用于情感分析，结合NER结果，深入挖掘用户对特定餐厅或菜品的情感倾向，从而为餐饮企业提供市场洞察和决策支持。

数据集最近研究