five

SEACrowd/filwordnet

收藏
Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/SEACrowd/filwordnet
下载链接
链接失效反馈
官方服务:
资源简介:
Filipino WordNet (FilWordNet) 是一个菲律宾语的词汇数据库,源自普林斯顿WordNet,并由人工翻译成菲律宾语。它记录了13,539个独特的单词和9,519个同义词集(synsets),每个同义词集包括定义、词性、词义和SUMO术语。

Filipino WordNet (FilWordNet) is a lexical database of Filipino language. It was derived from the Princeton WordNet and translated by humans to Filipino. It documents 13,539 unique words and 9,519 synsets. Each synset includes the definition, part-of-speech, word senses, and Suggested Upper Merged Ontology terms (SUMO terms).
提供机构:
SEACrowd
原始信息汇总

Filwordnet 数据集概述

数据集简介

Filipino WordNet (FilWordNet) 是一个菲律宾语的词汇数据库。该数据集源自普林斯顿 WordNet,并通过人工翻译为菲律宾语。它包含了 13,539 个独特的词汇和 9,519 个同义词集(synsets)。每个同义词集包括定义、词性、词义以及建议的上位合并本体术语(SUMO terms)。

语言

  • 菲律宾语 (fil)

数据集版本

  • 源版本: 1.0.0
  • SEACrowd 版本: 2024.06.20

数据集许可证

  • 未知

引用

如果使用 Filwordnet 数据集,请引用以下文献:

@article{article, author = {Borra, Allan and Pease, Adam and Edita, Rachel and Roxas, and Dita, Shirley}, year = {2010}, month = {01}, pages = {}, title = {Introducing Filipino WordNet} }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总
数据集介绍
main_image_url
构建方式
Filipino WordNet (FilWordNet) 是一种以菲律宾语为载体的词汇数据库,其构建过程主要是基于普林斯顿WordNet,通过人工翻译至菲律宾语。该数据库收录了13,539个独特单词和9,519个同义词集,每个同义词集包含了定义、词性、词义以及建议的上层合并本体(SUMO)术语。
特点
该数据集的特点在于,它是针对菲律宾语的专业词汇数据库,不仅提供了单词的基本信息,还包括了详细的同义词集,有助于研究者在语义网络和自然语言处理领域进行深入探索。此外,FilWordNet 的构建参考了普林斯顿WordNet,确保了其与现有英语词汇数据库的兼容性和可比性。
使用方法
使用该数据集时,研究者可以利用 `datasets` 库或 `seacrowd` 库进行数据加载。通过 `datasets` 库加载数据仅需一行代码,而 `seacrowd` 库则提供了更多配置选项,包括加载默认配置和特定配置,以及查看所有可用配置的功能。详细的加载方法可参考数据集的官方文档。
背景与挑战
背景概述
Filipino WordNet(FilWordNet)是一个菲迪皮迪语的语言数据库,它源自于普林斯顿词网,并由人工翻译成菲迪皮迪语。该数据库记录了13,539个独特单词和9,519个同义词集。每个同义词集包括定义、词性、词义以及建议的上层合并本体术语(SUMO术语)。FilWordNet的创建旨在丰富菲迪皮迪语的词汇资源,为自然语言处理研究提供支持。该项目始于2010年,由Allan Borra、Adam Pease、Rachel Edita、Shirley Dita等研究人员共同开发,对菲律宾语的语言学研究和自然语言处理领域产生了重要影响。
当前挑战
尽管FilWordNet为菲迪皮迪语的自然语言处理研究提供了宝贵的资源,但在构建过程中仍面临诸多挑战。首先,人工翻译和校对的工作量巨大,且需要具备高度的语言学专业知识。其次,如何确保翻译的准确性和一致性也是一大难题。此外,数据集的扩展和维护也需要持续的投入和专家的参与。在研究领域,如何将FilWordNet有效地应用于自然语言处理任务,如文本分类、语义分析等,也是一个值得探讨的挑战。
常用场景
经典使用场景
在自然语言处理领域中,Filipino WordNet(FilWordNet)数据集的经典使用场景主要涉及词汇语义的研究。其详尽的词汇数据库,为研究人员提供了一种深入理解菲律宾语词汇及语义关系的工具,进而促进了对该语言词汇网络结构及其内在联系的研究。
解决学术问题
FilWordNet数据集解决了在菲律宾语自然语言处理中缺乏权威词汇数据库的问题。它通过提供详尽的词汇及其语义关系,帮助学者们克服了在语义分析、词义消歧等任务中的障碍,对于推动菲律宾语的语义学研究具有显著意义。
衍生相关工作
基于FilWordNet数据集,已经衍生出多项相关研究工作,包括构建更为复杂的语义网络、设计特定任务的词汇语义分析模型,以及开发多语言词汇数据库的集成工具等,这些工作进一步拓展了FilWordNet数据集的应用范围和研究深度。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作