nectec/best2009

Name: nectec/best2009
Creator: nectec
Published: 2024-01-10 10:08:29
License: 暂无描述

Hugging Face2024-01-10 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/nectec/best2009

下载链接

链接失效反馈

官方服务：

资源简介：

`best2009`是一个泰语词汇切分数据集，包含来自百科全书、小说、新闻和文章的文本数据（训练集148,995行，测试集2,252行）。该数据集由NECTEC创建，用于2010年的BEST词汇切分竞赛。测试集的答案未公开。

`best2009` is a Thai word segmentation dataset. It contains text data sourced from encyclopedias, novels, news and articles, with 148,995 rows in the training set and 2,252 rows in the test set. This dataset was created by NECTEC for the 2010 BEST Word Segmentation Competition. The ground truth labels for the test set are not publicly available.

提供机构：

nectec

原始信息汇总

数据集概述

名称: best2009

语言: 泰语

许可证: CC-BY-NC-SA 3.0

多语言性: 单语种

数据集大小: 100K<n<1M

源数据: 原始数据

任务类别: 词性标注

标签: 词分割

数据集结构

数据实例

字段: fname, char, char_type, is_beginning
示例:

{char: [?, ภ, ู, ม, ิ, ป, ั, ญ, ญ, า, ช, า, ว, บ, ้, า, น, ], char_type: [4, 1, 10, 1, 10, 1, 4, 1, 1, 10, 1, 10, 1, 1, 9, 10, 1, 4], fname: encyclopedia_00031.txt, is_beginning: [1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1]} {char: [ภ, ู, ม, ิ, ป, ั, ญ, ญ, า, ช, า, ว, บ, ้, า, น, , ห, ม, า, ย, ถ, ึ, ง, , ค, ว, า, ม, ร, ู, ้, ข, อ, ง, ช, า, ว, บ, ้, า, น, , ซ, ึ, ่, ง, เ, ร, ี, ย, น, ร, ู, ้, ม, า, จ, า, ก, พ, ่, อ, แ, ม, ่, , ป, ู, ่, ย, ่, า, ต, า, ย, า, ย, , ญ, า, ต, ิ, พ, ี, ่, น, ้, อ, ง, , ห, ร, ื, อ, ผ, ู, ้, ม, ี, ค, ว, า, ม, ร, ู, ้, ใ, น, ห, ม, ู, ่, บ, ้, า, น, ใ, น, ท, ้, อ, ง, ถ, ิ, ่, น, ต, ่, า, ง, ๆ, ], char_type: [1, 10, 1, 10, 1, 4, 1, 1, 10, 1, 10, 1, 1, 9, 10, 1, 5, 3, 1, 10, 1, 1, 10, 1, 5, 1, 1, 10, 1, 1, 10, 9, 1, 1, 1, 1, 10, 1, 1, 9, 10, 1, 5, 1, 10, 9, 1, 11, 1, 10, 1, 1, 1, 10, 9, 1, 10, 1, 10, 1, 1, 9, 1, 11, 1, 9, 5, 1, 10, 9, 1, 9, 10, 1, 10, 1, 10, 1, 5, 1, 10, 1, 10, 1, 10, 9, 1, 9, 1, 1, 5, 3, 1, 10, 1, 3, 10, 9, 1, 10, 1, 1, 10, 1, 1, 10, 9, 11, 1, 3, 1, 10, 9, 1, 9, 10, 1, 11, 1, 1, 9, 1, 1, 1, 10, 9, 1, 1, 9, 10, 1, 7, 4], fname: encyclopedia_00031.txt, is_beginning: [1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1]}

数据分割

	训练集	测试集
行数	148,995	2,252
总字节数	483129698	10498706
下载大小	28084787	-
数据集大小	493628404	-

数据集创建

来源数据

语言生产者: 文章、新闻、百科和小说各自的作者

注释

注释过程: 使用InterBEST2009标准
注释者: 未提供详细信息

个人和敏感信息

信息来源: 公共来源，不包含个人和敏感信息

使用数据注意事项

社会影响: 词分割数据集，来源于文章、新闻、百科和小说
偏见讨论: 文本相对正式，使用InterBEST2009标准
其他已知限制: 清理了与词分割无关的标签，测试集未提供词边界

搜集汇总

数据集介绍

构建方式

在泰语自然语言处理领域，词切分是基础且关键的任务，鉴于泰语书写中词间无空格的特点，构建高质量标注数据集尤为重要。BEST2009数据集由泰国国家电子与计算机技术中心（NECTEC）精心构建，旨在服务于2010年泰语词切分竞赛。该数据集源自从百科全书、小说、新闻及文章等公开文本中收集的原始语料，经专家依据InterBEST2009标准进行严格的人工词边界标注，确保了标注的一致性与权威性。数据涵盖近15万行训练样本与2252行测试样本，测试集的真实切分结果未公开，专用于模型评估。

特点

BEST2009数据集以其丰富的多源文本构成和精细的标注结构而著称。数据集不仅提供字符序列，还包含每个字符的类型标签（如辅音、元音、声调等）及词起始位置标记，这些特征源自deepcut等工具采用的分类体系，为模型学习泰语构词规律提供了深层语言学线索。语料覆盖正式书面语的多种文体，包括百科全书、小说、新闻与文章，确保了语言风格的多样性。数据规模适中，训练集与测试集划分清晰，且附有详细的标注指南，为泰语词切分研究奠定了可靠基础。

使用方法

该数据集主要用于泰语词切分任务的模型训练与评估。研究人员可通过HuggingFace平台直接加载数据集，利用提供的字符序列、字符类型及词起始标记，构建基于序列标注的机器学习或深度学习模型，例如条件随机场或循环神经网络。训练集用于学习词边界预测规则，而测试集则用于评估模型泛化性能，但由于测试集答案未公开，需依赖官方竞赛渠道或交叉验证进行严谨评测。数据集兼容常见自然语言处理框架，支持泰语信息处理的进一步研究与开发。

背景与挑战

背景概述

在泰语自然语言处理领域，词切分是基础且关键的任务，由于泰语书写中词间缺乏显式分隔符，这一任务充满挑战。BEST2009数据集由泰国国家电子与计算机技术中心于2009年创建，旨在为BEST 2010词切分竞赛提供基准数据。该数据集汇集了百科全书、小说、新闻和文章等多种正式文本，共计包含超过14万行训练数据，由领域专家依据InterBEST2009标准进行精细标注。作为泰语词切分研究的里程碑，它不仅推动了相关算法的发展，也为后续语言资源建设奠定了坚实基础。

当前挑战

该数据集致力于解决泰语词切分这一核心领域问题，其挑战在于泰语复杂的形态结构和歧义消解，例如复合词与专有名词的边界识别。在构建过程中，数据收集面临多源文本的整合与规范化难题，需确保不同文体间标注的一致性。同时，标注过程依赖人工专家，成本高昂且易受主观判断影响。此外，测试集的词边界信息未公开，限制了模型评估的透明度与可复现性，这些因素共同构成了数据集应用与发展的主要障碍。

常用场景

经典使用场景

在泰语自然语言处理领域，词切分是文本分析的基础步骤，由于泰语书写中缺乏显式的词边界标记，这一任务尤为关键。BEST2009数据集作为泰语词切分研究的基准资源，其经典使用场景在于为机器学习模型提供高质量的标注语料，支持序列标注模型的训练与评估。该数据集涵盖了百科全书、小说、新闻和文章等多种文体，确保了模型在不同文本类型上的泛化能力，常被用于构建和测试条件随机场、双向长短时记忆网络等模型，以精准识别泰语文本中的词边界。

解决学术问题

BEST2009数据集有效解决了泰语自然语言处理中词切分这一核心学术问题。泰语作为一门孤立语，其连续书写特性使得自动词切分成为下游任务如句法分析、机器翻译的前提挑战。该数据集通过提供大规模专家标注的字符序列及词起始位置标签，为研究者建立了可靠的评估基准，促进了泰语词切分算法的标准化与比较。它帮助学术界深入探究泰语的语言学特征，推动了统计方法与深度学习模型在低资源语言处理中的创新应用，缩小了泰语与其他高资源语言在NLP技术上的差距。

衍生相关工作

围绕BEST2009数据集，衍生了一系列经典研究工作，持续推动着泰语NLP领域的进步。早期研究如TLex系统利用条件随机场模型，首次在数据集上实现了高效的词切分。随后，深度学习模型如DeepCut进一步优化了切分性能，成为广泛使用的开源工具。该数据集也激发了后续竞赛与评估活动，如BEST2010词切分竞赛，促进了学术界与工业界的协作。近年来，基于Transformer的预训练模型在微调时亦常参考此数据集，以提升对泰语语言结构的建模能力，形成了从传统机器学习到现代神经网络的完整研究脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集