Abkhazian focused Data Pipeline for Natural Language Processing(NLP)
收藏Abkhazian Focused Data Pipeline for Natural Language Processing(NLP)
数据集描述
本数据集包含用于神经机器翻译(NMT)和语音转文本任务(STT)的单语和并行语料库的数据管道。数据包括约10万对并行句子,10万对并行单词的阿布哈兹语-俄语对,以及约140万句单语阿布哈兹语语料库。数据来源包括多个网站、电子书和一本词典。我们的团队已从内容所有者处获得开放源代码所有文本的许可。
数据ETL管道
数据管道涉及提取、转换和加载(ETL)过程,以准备数据用于训练神经网络模型。
提取
数据获取过程涉及从各种来源提取信息,使用多种技术确保全面覆盖。具体而言,数据通过使用parse_dictionary.py脚本的词典解析获得。对于网页内容,实施了网络爬虫方法,利用Scrapy蜘蛛同时从并行网页提取数据。此外,使用hunalign进行跨页面的启发式文本对齐,优化对齐过程。
转换
文本通过Python和Shell脚本进行清理,以去除噪声并识别异常值。此过程涉及3名人类评估者的反馈,并实施随机抽样进行推断统计,以识别异常值和潜在噪声源。统计数据可在data/stats文件夹中找到。
加载
清理后的数据被聚合到一个文件中,准备进一步用于自然语言处理(NLP)任务。
转换和加载阿布哈兹语-俄语并行数据
bash git clone https://github.com/danielinux7/Abkhaz-NLP-Data-Pipeline.git cd Abkhaz-NLP-Data-Pipeline bash getclean_ab_ru.sh
转换和加载阿布哈兹语单语数据
bash git clone https://github.com/danielinux7/Abkhaz-NLP-Data-Pipeline.git cd Abkhaz-NLP-Data-Pipeline bash getclean_ab.sh
数据将在clean文件夹中创建,脚本运行时间约为15-30分钟。
可选:数据增强
bash git clone https://github.com/danielinux7/Abkhaz-NLP-Data-Pipeline.git cd Abkhaz-NLP-Data-Pipeline/tools
可以使用join_corpus.py脚本生成特定、随机训练语料库,分离测试文件,以及生成其他选项的释义。




