Kuala Lumpur Travel blogs Dataset
收藏NIAID Data Ecosystem2026-03-10 收录
下载链接:
https://data.mendeley.com/datasets/9wb5rv45j5
下载链接
链接失效反馈官方服务:
资源简介:
This dataset contains three folders:
1) Training:
The first sub-folder "raw training files" contains travel text extracted from 36 travel blog posts related to Kuala Lumpur.
The second sub-folder "labeled files" consists of .xml version of raw text files containing 500 annotated spatial triplets as "trajector, spatial indicator, landmark" for spatial relation extraction.
2) Testing:
The first sub-folder "raw testing files" contains travel text extracted from 10 travel blog posts related to Kuala Lumpur.
The second sub-folder "labeled files" is the gold standard for evaluation consists of .xml version of raw text files containing 200 annotated spatial triplets as "trajector, spatial relation, landmark".
3) Related files:
This folder contains annotation scheme definition (.xml) for training and testing files.
本数据集包含三个文件夹:
1) 训练集:
第一个子文件夹"原始训练文件(raw training files)"包含从36篇与吉隆坡相关的旅游博客文章中提取的旅游文本。
第二个子文件夹"标注文件(labeled files)"包含原始文本的XML格式版本,其中包含500条标注为"轨迹载体(trajector)、空间指示语(spatial indicator)、地标(landmark)"的空间三元组,用于空间关系抽取任务。
2) 测试集:
第一个子文件夹"原始测试文件(raw testing files)"包含从10篇与吉隆坡相关的旅游博客文章中提取的旅游文本。
第二个子文件夹"标注文件(labeled files)"为评估所用的金标准数据集,包含原始文本的XML格式版本,其中包含200条标注为"轨迹载体(trajector)、空间关系(spatial relation)、地标(landmark)"的空间三元组。
3) 相关文件:
该文件夹包含适用于训练集与测试集的标注方案定义文件(XML格式)。
创建时间:
2018-02-26



