aidouni/arabic-eou
收藏Hugging Face2025-12-09 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/aidouni/arabic-eou
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: dialogue_id
dtype: string
- name: turn_id
dtype: int64
- name: text
dtype: string
- name: label
dtype: int64
- name: dialect
dtype: string
- name: source
dtype: string
- name: domain
dtype: string
splits:
- name: train
num_bytes: 8496312
num_examples: 23712
- name: validation
num_bytes: 1062039
num_examples: 2964
- name: test
num_bytes: 1062039
num_examples: 2964
download_size: 4485390
dataset_size: 10620390
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
---
--> Objective: Arabic End-of-Utterance (EOU) detection (Saudi + Hams use cases)
--> Composition:
70% SADA Saudi Arabic dataset
30% synthetic Hams-style conversational data
--> Columns:
text
label
dialect
domain
source
dialogue_id
turn_id
--> Usage:
Fine-tuning an EOU classification model.
数据集信息:
特征列:
- 字段名:对话ID(dialogue_id),数据类型:字符串型
- 字段名:轮次ID(turn_id),数据类型:64位整型
- 字段名:文本(text),数据类型:字符串型
- 字段名:标签(label),数据类型:64位整型
- 字段名:方言(dialect),数据类型:字符串型
- 字段名:来源(source),数据类型:字符串型
- 字段名:领域(domain),数据类型:字符串型
数据拆分:
- 拆分名称:训练集(train),字节数:8496312,样本数:23712
- 拆分名称:验证集(validation),字节数:1062039,样本数:2964
- 拆分名称:测试集(test),字节数:1062039,样本数:2964
下载大小:4485390,总数据集大小:10620390
配置项:
- 配置名:默认配置(default)
数据文件:
- 拆分:训练集(train),路径:data/train-*
- 拆分:验证集(validation),路径:data/validation-*
- 拆分:测试集(test),路径:data/test-*
--> 任务目标:阿拉伯语语句结尾(End-of-Utterance, EOU)检测,涵盖沙特阿拉伯语与Hams两类场景用例
--> 数据集构成:
70% 源自SADA沙特阿拉伯语数据集
30% 为合成的Hams风格对话数据
--> 可用字段:
text、label、dialect、domain、source、dialogue_id、turn_id
--> 适用场景:用于微调EOU分类模型。
提供机构:
aidouni



