Zayt/oasst1-vi
收藏Hugging Face2023-05-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Zayt/oasst1-vi
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含越南语子集(前191个示例)和从英语自动翻译到越南语的子集(其余38346个示例),这些数据来源于OASST1数据集。自动翻译的子集引入了两个新特征:`text_chunks`和`text_translation`。`text_chunks`是从`text`中分割出的文本块列表,每个块不超过300个标记,使用了spacy的en_core_web_sm模型进行句子和单词的分割。`text_translation`包含所有翻译块的合并文本,由于自动翻译模型的原因,所有换行符(`
`)被移除。
This dataset comprises a Vietnamese subset (the first 191 examples) and a subset automatically translated from English to Vietnamese (the remaining 38,346 examples), which is sourced from the OASST1 dataset. The automatically translated subset includes two additional features: `text_chunks` and `text_translation`. `text_chunks` is a list of text chunks split from the original `text` field, with each chunk containing no more than 300 tokens, and the splitting is performed using spaCy's en_core_web_sm model for sentence and word segmentation. `text_translation` contains the merged text of all translated chunks. Due to the limitations of the automatic translation model, all newline characters (`
`) have been removed.
提供机构:
Zayt
原始信息汇总
数据集概述
数据集基本信息
- 许可证: Apache-2.0
- 数据集大小:
- 下载大小: 39428167字节
- 数据集大小: 59922108.85834358字节
- 任务类别: 对话式
- 语言: 越南语
- 大小类别: 10K<n<100K
数据集特征
- 基本特征:
message_id: 字符串parent_id: 字符串user_id: 字符串created_date: 字符串text: 字符串role: 字符串lang: 字符串review_count: 整数review_result: 布尔值deleted: 布尔值rank: 整数synthetic: 布尔值model_name: 字符串message_tree_id: 字符串tree_state: 字符串
- 复杂特征:
detoxify: 结构体,包含多个毒性相关的浮点数值特征emojis: 序列,包含名称和计数labels: 序列,包含名称、值和计数text_chunks: 序列,字符串text_translation: 字符串
数据集分割
- 训练集:
- 字节数: 59922108.85834358
- 示例数: 38537
数据集子集
- 原始越南语子集: 前191个示例
- 自动翻译子集: 剩余38346个示例,使用VietAI envit5-translation从英语自动翻译到越南语
- 新增特征:
"text_chunks": 从"text"分割的文本块列表,每个块不超过300个令牌"text_translation": 所有翻译块的合并,由于自动翻译模型,所有换行符()被移除
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,构建高质量的多语言对话数据集对于推动跨语言模型的发展至关重要。Zayt/oasst1-vi数据集基于OpenAssistant项目中的OASST1数据集,通过精心设计的流程构建而成。其核心部分包含191个越南语原生对话样本,其余38346个样本则通过自动翻译技术从英语原文转化而来。翻译过程采用了VietAI团队开发的envit5-translation模型,确保了语言转换的准确性与流畅性。此外,数据集在翻译过程中引入了文本分块处理机制,使用spacy的en_core_web_sm模型进行句子和词语切分,每个文本块限制在300个词元以内,最终合并生成完整的翻译文本,同时移除了原始文本中的换行符以适配翻译模型的特点。
特点
该数据集在对话系统研究中展现出鲜明的多语言特性与丰富的元数据维度。其最显著的特点在于融合了原生越南语对话与机器翻译内容,为跨语言对话建模提供了双重数据来源。数据集保留了原始OASST1的结构化特征,包括对话树标识、用户角色、时间戳及审核信息等完整字段。特别值得注意的是,翻译子集新增了文本分块序列和翻译结果字段,为研究机器翻译对对话质量的影响提供了细粒度分析基础。毒性检测指标的嵌入进一步拓展了其在内容安全评估领域的应用潜力,而表情符号与标签系统的保留则维持了对话的交互丰富性。
使用方法
在对话生成与跨语言迁移学习的研究实践中,该数据集提供了多层次的应用路径。研究者可直接加载完整数据集进行端到端的对话模型训练,利用其树状对话结构模拟多轮交互场景。对于机器翻译质量评估任务,可通过对比原生越南语样本与翻译样本的文本特征,分析自动翻译对对话连贯性的影响。毒性检测字段支持开发内容过滤机制,而分块文本序列则为长文本处理模型提供了预处理范例。在具体操作中,建议根据研究目标选择相应数据子集,例如单独使用原生样本进行文化语境分析,或结合翻译样本探究跨语言泛化能力,同时注意翻译过程中格式转换可能带来的结构差异。
背景与挑战
背景概述
在自然语言处理领域,高质量对话数据集的构建对于推动多语言对话模型的发展至关重要。Zayt/oasst1-vi数据集于2023年由社区贡献者基于OpenAssistant项目发布的OASST1数据集创建,专注于越南语对话数据的收集与生成。该数据集的核心研究问题在于解决越南语对话资源稀缺的困境,通过整合原始越南语样本与自动翻译的英语对话,为越南语对话系统的训练与评估提供了重要资源。其出现显著促进了东南亚语言在人工智能对话领域的研究进展,为跨语言对话模型的适应性训练奠定了数据基础。
当前挑战
该数据集旨在应对越南语对话生成与理解任务中的挑战,包括语言表达的多样性与文化特定性处理。构建过程中面临多重困难:原始越南语样本数量有限,仅包含191个实例,难以全面覆盖语言使用场景;自动翻译部分依赖envit5-translation模型,可能引入翻译误差或丢失对话中的细微语义与情感色彩;同时,翻译过程移除了文本中的换行符,可能影响对话结构的完整性。这些因素共同构成了数据集在代表性、准确性与结构保真度方面的核心挑战。
常用场景
经典使用场景
在自然语言处理领域,越南语对话数据的稀缺性长期制约着相关模型的发展。Zayt/oasst1-vi数据集通过整合原始越南语对话与自动翻译的英语对话,构建了一个规模可观的越南语对话语料库。该数据集最经典的使用场景是训练和评估越南语对话生成模型,研究人员利用其丰富的对话结构和多轮交互特征,能够系统地探究模型在理解上下文、生成连贯回复方面的性能。
实际应用
在实际应用层面,Zayt/oasst1-vi数据集为开发越南语智能助手、客服机器人和教育工具奠定了数据基础。企业可利用该数据集训练能够理解当地语言习惯和文化细微差别的对话系统,提升服务本土化水平。此外,其在内容审核、情感分析等领域的应用,也有助于构建更安全、包容的在线交流环境。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作。例如,基于其翻译子集的研究探讨了自动翻译对对话质量的影响,为数据增强策略提供了实证依据。同时,一些工作专注于利用其多轮对话结构优化越南语对话模型的长期依赖建模能力。这些研究不仅丰富了越南语NLP的学术成果,也为后续构建更大规模、更高质量的越南语数据集指明了方向。
以上内容由遇见数据集搜集并总结生成



