ALQAC
收藏ViEQA: Fine-Tuning Extractive Question Answering for Vietnamese Data
简介
ViEQA 是一个专注于微调越南语数据提取问答模型的项目。该项目的目标是提高模型在基于越南语文本段落回答问题方面的性能,特别是在预准备的越南语数据集上。
什么是提取问答?
提取问答(Extractive Question Answering, EQA)是一个自然语言处理任务,模型被给定一个问题和一个上下文(通常是一个段落或文档),并需要直接从上下文中提取问题的答案。EQA的关键假设是答案是给定上下文中的连续文本跨度。
问题表述
给定:
- 一个上下文 C = [c1, c2, ..., cn],其中 ci 是上下文中的标记
- 一个问题 Q = [q1, q2, ..., qm],其中 qi 是问题中的标记
目标是找到:
- 在 C 中的起始索引 s 和结束索引 e,使得跨度 [cs, cs+1, ..., ce] 回答问题 Q。
示例
以下是一个提取问答的示例:
- 上下文:关于侵占或破坏烈士遗物的法律文本
- 问题:"Chiếm đoạt di vật của tử sĩ có thể bị phạt tù lên đến bao nhiêu năm?"(侵占烈士遗物可能面临多少年监禁?)
- 答案:"07 năm"(07年)
模型需要根据问题从给定的上下文中提取正确的答案跨度。
关键特性
- 在越南语数据上微调提取问答模型。
- 支持先进的语言模型。
- 易于与流行的工具和库集成。
- 可定制和扩展以适应不同的数据集。
目录结构
plaintext ViEQA/ │ ├── config.py # 项目配置文件 ├── train.py # 微调主脚本 ├── requirements.txt # 所需的Python库列表 ├── data/ │ ├── init.py # 数据模块初始化 │ ├── data_processing.py # 数据处理脚本 │ └── dataset/ │ └── ALQAC.csv # 越南语问答数据集 ├── models/ │ ├── init.py # 模型模块初始化 │ └── eqa_model.py # 提取问答模型 └── utils/ ├── init.py # 工具模块初始化 └── metrics.py # 计算模型指标的脚本
系统要求
- Python 3.7 或更高版本
- requirements.txt 中列出的Python库
安装指南
1. 克隆仓库:
python git clone https://github.com/ntphuc149/ViEQA.git cd ViEQA-main
2. 创建虚拟环境(推荐):
python python3 -m venv venv source venv/bin/activate
3. 安装依赖项:
python pip install -r requirements.txt
使用说明
1. 配置项目:
根据您的数据集和需求更新 config.py 中的参数。
2. 微调和评估模型:
运行以下命令开始微调和评估模型:
python python train.py




