pakphum/winograd_th
收藏Hugging Face2024-07-03 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/pakphum/winograd_th
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个泰语Winograd Schemas的集合,源自Levesque等人提出的英文Winograd Schemas。数据集由两名专业翻译人员从英文翻译成泰语,并在翻译过程中进行了适应性调整以符合泰语语境。翻译后的数据集经过三名母语为泰语的验证者审查,确保翻译的准确性和清晰度。数据集包含285个测试样本,每个样本包含一个文本段落、一个指定的代词和两个可能的答案,用于指示代词所指的实体。数据集的结构包括多个字段,如问题编号、标签、代词、引用、来源、文本、选项、代词位置和引用位置。数据集的评估部分展示了不同模型在英文和泰语上的准确率对比。
This dataset is a collection of Thai Winograd Schemas, adapted from the original English Winograd Schemas proposed by Levesque et al. The dataset was translated from English to Thai by two professional translators, with adaptations made to suit the Thai context. The translated dataset was reviewed by three native Thai speakers to ensure accuracy and clarity. The dataset contains 285 test samples, each consisting of a text passage, a designated pronoun, and two possible answers indicating which entity the pronoun refers to. The dataset structure includes fields such as question number, label, pronoun, quote, source, text, options, pronoun location, and quote location. The evaluation section presents the accuracy of various models in both English and Thai.
提供机构:
pakphum
原始信息汇总
数据集概述
数据集信息
- 语言: 泰语
- 许可证: CC-BY-4.0
- 任务类别: 多项选择
数据集特征
- qn: 问题编号,数据类型为 int64
- label: 正确选项的索引,数据类型为 int64
- pronoun: 代词,数据类型为 string
- quote: 包含关键动作或上下文的子字符串,数据类型为 string
- source: 贡献示例的来源描述,数据类型为 string
- text: 文本序列,数据类型为 string
- options: 代词可能指代的两实体选项,数据类型为 tuple[string]
- pronoun_loc: 代词在序列中的起始位置,数据类型为 int64
- quote_loc: 引文在序列中的起始位置,数据类型为 int64
数据分割
- test: 包含 285 个示例,数据大小为 108414 字节
数据集结构
数据实例
每个实例包含一个带有指定代词的文本段落和两个可能的答案,指示代词在段落中代表的实体。示例实例如下: python { qn: 0, label: 0, pronoun: พวกเขา, quote: พวกเขากลัวความรุนแรง, source: (Winograd 1972), text: สมาชิกสภาเทศบาลเมืองปฏิเสธใบอนุญาตผู้ชุมนุมเพราะพวกเขากลัวความรุนแรง, options: (สมาชิกสภาเทศบาลเมือง, ผู้ชุมนุม), pronoun_loc: 48, quote_loc: 48 }
数据字段
qn: 问题编号,基于 winograd_wsc285label:options字段中正确选项的索引pronoun: 需要解析的序列中的代词quote: 包含代词关键动作或上下文的子字符串source: 贡献示例的来源描述text: 文本序列options: 代词可能指代的两实体选项pronoun_loc: 代词在序列中的起始位置quote_loc: 引文在序列中的起始位置
数据集验证
数据集经过两名母语为泰语的专业翻译人员翻译,并由两名母语为泰语的验证人员进行最终调整,确保清晰性。数据集已公开,邀请其他母语为泰语的人士进行验证和建议调整。



