compound-words-finnish
收藏Compound Words Finnish Dataset
概述
芬兰语因其复杂的形态结构而著称,尤其是复合词的使用。这些复合词由于其灵活的构成和在词典中的频繁缺失,对自然语言处理(NLP)系统构成了挑战。为了解决这一问题,创建了一个数据集,用于将芬兰语复合词分解为其组成部分,支持机器翻译、搜索引擎和语言学研究等NLP应用。
方法论
数据收集
从多个来源收集文本数据,以确保芬兰语复合词的广泛代表性。使用BeautifulSoup从Yle.fi动态提取新闻文章,从Project Gutenberg下载公共领域书籍并使用PyPDF2处理,从Finna.fi获取额外的文学和历史文本。将收集到的文本整合到一个文件中进行预处理。
预处理
使用正则表达式清理原始文本,去除标点符号、HTML标签和多余空格。应用分词将文本拆分为单个单词,并筛选出长度超过十个字符的单词作为潜在的复合词候选。
复合词识别
将每个候选词与开源的芬兰语词典Omorfi进行交叉引用。未出现在词典中的单词被标记为复合词。这些标记的单词通过迭代拆分并检查结果组件是否存在于词典中来进行分解。应用特殊语言规则以考虑芬兰语的连接元音(如“s”)和常见后缀(如-ssa和-t)。
验证和数据集创建
为确保数据集的准确性,对分解样本进行了手动验证。此外,使用GPT-4识别假阳性或错误的拆分,并将其移除。最终数据集以CSV格式存储,包含每个复合词及其分解后的组件。
应用和贡献
该数据集具有以下实际应用:
- 机器翻译:通过将芬兰语复合词分解为其基本组件,实现更准确的翻译。
- 搜索引擎:通过将复合搜索词分解为其部分,提高查询匹配度。
- 语言学习:帮助学习者理解和解释复杂的芬兰语单词。
- 语言学研究:提供关于芬兰语复合词形成和结构的见解,支持乌拉尔语系形态学研究。
数据集格式
数据集包含以下列:
compound_word:原始芬兰语复合词。word1:复合词的第一部分。word2:复合词的第二部分。
示例条目
| Compound Word | Word1 | Word2 |
|---|---|---|
| kaupunginsuunnittelu | kaupunki | suunnittelu |
| terveysasemat | terveys | asemat |
参考文献
- Yleisradio Oy (Yle). https://yle.fi.
- Omorfi: Open Morphology for Finnish. https://github.com/flammie/omorfi.
- Project Gutenberg: Public Domain Texts. https://www.gutenberg.org.
- Finna.fi: The National Digital Library of Finland. https://finna.fi.
引用
请使用以下引文引用数据:
Melany Macias. Breaking Down Finnish Compounds: Creating a Dataset for NLP. Lightning Proceedings of the 9th International Workshop on Computational Linguistics for Uralic Languages, Nov 2024, Helsinki, Finland. hal-04801912.
Hämäläinen, M., & Pirinen, F. (2024, noviembre 28). Lightning Proceedings of the 9th International Workshop on Computational Linguistics for Uralic Languages. Lightning Proceedings of the 9th International Workshop on Computational Linguistics for Uralic Languages. The 9th International Workshop on Computational Linguistics for Uralic Languages (IWCLUL), Helsinki, Finland. https://doi.org/10.5281/zenodo.14212595




