five

Kuala Lumpur Travel blogs Dataset

收藏
NIAID Data Ecosystem2026-03-10 收录
下载链接:
https://data.mendeley.com/datasets/9wb5rv45j5
下载链接
链接失效反馈
官方服务:
资源简介:
This dataset contains three folders: 1) Training: The first sub-folder "raw training files" contains travel text extracted from 36 travel blog posts related to Kuala Lumpur. The second sub-folder "labeled files" consists of .xml version of raw text files containing 500 annotated spatial triplets as "trajector, spatial indicator, landmark" for spatial relation extraction. 2) Testing: The first sub-folder "raw testing files" contains travel text extracted from 10 travel blog posts related to Kuala Lumpur. The second sub-folder "labeled files" is the gold standard for evaluation consists of .xml version of raw text files containing 200 annotated spatial triplets as "trajector, spatial relation, landmark". 3) Related files: This folder contains annotation scheme definition (.xml) for training and testing files.

本数据集包含三个文件夹: 1) 训练集: 第一个子文件夹"原始训练文件(raw training files)"包含从36篇与吉隆坡相关的旅游博客文章中提取的旅游文本。 第二个子文件夹"标注文件(labeled files)"包含原始文本的XML格式版本,其中包含500条标注为"轨迹载体(trajector)、空间指示语(spatial indicator)、地标(landmark)"的空间三元组,用于空间关系抽取任务。 2) 测试集: 第一个子文件夹"原始测试文件(raw testing files)"包含从10篇与吉隆坡相关的旅游博客文章中提取的旅游文本。 第二个子文件夹"标注文件(labeled files)"为评估所用的金标准数据集,包含原始文本的XML格式版本,其中包含200条标注为"轨迹载体(trajector)、空间关系(spatial relation)、地标(landmark)"的空间三元组。 3) 相关文件: 该文件夹包含适用于训练集与测试集的标注方案定义文件(XML格式)。
创建时间:
2018-02-26
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作