five

WHLL corpus

收藏
arXiv2024-03-25 更新2024-06-21 收录
下载链接:
http://www.lsta.media.kyoto-u.ac.jp/resource/data/WHLL/home-e.html
下载链接
链接失效反馈
官方服务:
资源简介:
WHLL corpus是由京都大学信息学研究科创建的一个大规模地理解析数据集,包含超过130万篇维基百科文章,每篇文章平均包含约7.8个独特的地理位置表达。该数据集通过利用维基百科中的超链接,自动为多个地理位置表达标注坐标,其中45.6%的表达存在歧义。创建过程涉及从维基百科的HTML和CirrusSearch dump文件中提取信息,自动为文章中的地理位置表达分配坐标。该数据集主要用于训练和评估机器学习模型在处理文本中的地理位置信息时的性能,特别是在解决地理位置表达歧义方面的应用。
提供机构:
京都大学信息学研究科
创建时间:
2024-03-25
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作