Highgroundbkk/ThaiSafetyBench

Name: Highgroundbkk/ThaiSafetyBench
Creator: Highgroundbkk
Published: 2026-03-22 21:56:40
License: 暂无描述

Hugging Face2026-03-22 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/Highgroundbkk/ThaiSafetyBench

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 viewer: false task_categories: - question-answering language: - th size_categories: - 1K<n<10K dataset_info: features: - name: prompt dtype: string - name: risk_area dtype: string - name: types_of_harm dtype: string - name: subtypes_of_harm dtype: string - name: thai_related dtype: bool - name: ai_gen dtype: bool - name: source dtype: string - name: id dtype: int64 splits: - name: test num_bytes: 549743 num_examples: 1889 download_size: 137554 dataset_size: 565298 configs: - config_name: default data_files: - split: test path: data/test-* --- # ThaiSafetyBench <span style="color: red;">⚠️ **Warning:** This dataset contains harmful and toxic language. It is intended for academic purposes only.</span> [[ArXiv Paper](https://arxiv.org/abs/2603.04992v2)] [[Github](https://github.com/trapoom555/ThaiSafetyBench)] [[Hugging Face Leaderboard 🤗](https://huggingface.co/spaces/typhoon-ai/ThaiSafetyBench-Leaderboard)] The ThaiSafetyBench dataset comprises 1,889 malicious Thai-language prompts across various categories. In addition to translated malicious prompts, it includes prompts tailored to Thai culture, offering deeper insights into culturally specific attacks. > **Note:** The *Monarchy* type of harm has been removed from the dataset to comply with Thai regulations. This filtering reduced the dataset from 1,954 to 1,889 samples. ## Dataset Distribution The dataset is categorized into hierarchical categories, as illustrated in the figure below. ![image/png](https://cas-bridge.xethub.hf.co/xet-bridge-us/69a7f2bfc945f5b4f9cc8822/b22ee567b18759c50c09fd106e8c8fdb24b8c3ae2b38fdaaeccf7ebaf2b1e091?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=cas%2F20260304%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20260304T091113Z&X-Amz-Expires=3600&X-Amz-Signature=cf8baf56487d9d0a024ccd90617b5a6760c1a131ab91e0617690bfdff69160dc&X-Amz-SignedHeaders=host&X-Xet-Cas-Uid=661cae1bd7c07238c295352b&response-content-disposition=inline%3B+filename*%3DUTF-8%27%27dataset_dist.png%3B+filename%3D%22dataset_dist.png%22%3B&response-content-type=image%2Fpng&x-amz-checksum-mode=ENABLED&x-id=GetObject&Expires=1772619073&Policy=eyJTdGF0ZW1lbnQiOlt7IkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTc3MjYxOTA3M319LCJSZXNvdXJjZSI6Imh0dHBzOi8vY2FzLWJyaWRnZS54ZXRodWIuaGYuY28veGV0LWJyaWRnZS11cy82OWE3ZjJiZmM5NDVmNWI0ZjljYzg4MjIvYjIyZWU1NjdiMTg3NTljNTBjMDlmZDEwNmU4YzhmZGIyNGI4YzNhZTJiMzhmZGFhZWNjZjdlYmFmMmIxZTA5MSoifV19&Signature=soG4kAEtgt1q0rg2RrFQ3jvUaHBA8SVXNmEI-PonOf1wOBg-yVbS7C8PM%7Er1ka695O02Ia5KdnltNMKw4wez4YXbtFdB4R22RDkLhD2S9VLlR8EQwdRwsOL4euqdqiIQEDyrl0f7mMUn7R6JcOhiufoVe0DellVLGnNXn%7EnEUPRoKYgsHpv0zeZSDnKw2g5ve631bw9heWf7szAYyLBDGA2RwbI%7EQr7sMst1TKvfjr04aA5hkJlfNHpQ5N1auRIlCulAgbPzFa06hnw1DlKQxMN13LV6qOYchCegofZKjz2fMHCX4l7hyQEEr9ZKgGj3p2tRtA3bcG1My8rvCCd90Q__&Key-Pair-Id=K2L8F4GPSG1IFC) ## Dataset Fields | **Field** | **Description** | |--------------------|---------------------------------------------------------------------------------| | `id` | A unique identifier for each sample in the dataset. | | `prompt` | The malicious prompt written in Thai. | | `risk_area` | The primary hierarchical category of risk associated with the prompt. | | `types_of_harm` | A subcategory of the `risk_area`, specifying the type of harm. | | `subtypes_of_harm` | A further subcategory under `types_of_harm`, providing more granular detail. | | `thai_related` | A boolean (`true`/`false`) indicating whether the prompt is related to Thai culture. | | `ai_gen` | A boolean (`true`/`false`) indicating whether the prompt was generated by AI. | | `source` | The source from which the data was collected. | **Note:** The hierarchical structure (`risk_area` → `types_of_harm` → `subtypes_of_harm`) allows for detailed classification of the potential harm caused by each prompt. ## More Dataset Statistics ![image/png](https://cas-bridge.xethub.hf.co/xet-bridge-us/69a7f2bfc945f5b4f9cc8822/b69255c986dafb0f7482b993ef4d004e121299cba36401ec8ca5609249dcdb77?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=cas%2F20260304%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20260304T091200Z&X-Amz-Expires=3600&X-Amz-Signature=c9b7966a88bc88d7364ffc141f0366dbae1c0d032c4a526d1d7be66428247873&X-Amz-SignedHeaders=host&X-Xet-Cas-Uid=661cae1bd7c07238c295352b&response-content-disposition=inline%3B+filename*%3DUTF-8%27%27dataset_desc.png%3B+filename%3D%22dataset_desc.png%22%3B&response-content-type=image%2Fpng&x-amz-checksum-mode=ENABLED&x-id=GetObject&Expires=1772619120&Policy=eyJTdGF0ZW1lbnQiOlt7IkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTc3MjYxOTEyMH19LCJSZXNvdXJjZSI6Imh0dHBzOi8vY2FzLWJyaWRnZS54ZXRodWIuaGYuY28veGV0LWJyaWRnZS11cy82OWE3ZjJiZmM5NDVmNWI0ZjljYzg4MjIvYjY5MjU1Yzk4NmRhZmIwZjc0ODJiOTkzZWY0ZDAwNGUxMjEyOTljYmEzNjQwMWVjOGNhNTYwOTI0OWRjZGI3NyoifV19&Signature=NZtDi8A3MdiSanVdHTJikKeu4O-oJRDhT5HTVjbK4CT8NQSwZjNMbsz8FxT14H9oVnjRiVJBCeNNlDMJM5D7T-qSecE%7Ei7MKDschKhDV0mt-pqxCTHwcZ572vEiLBE%7En9DVknLt-RnIu4GBsCss1dK1fmQbEZwk3v1sDTUmYB6GpnhDdHImIVmGybn0egnDM5vp55aRGHXpicJypVDb8ZVtKVaox7N2WFA2k6dBsEcdCOlZl0lbedgxTW52DG%7Egh4tytIL0rdBqX3dsOMcc0nnUjsObkPMB9qry6M4oDHCkerTdI43Dul1EPbE3vHKUPI-kfs0sCByXbOIHmkE3vPQ__&Key-Pair-Id=K2L8F4GPSG1IFC) ## Citation ``` @misc{ukarapol2026thaisafetybenchassessinglanguagemodel, title={ThaiSafetyBench: Assessing Language Model Safety in Thai Cultural Contexts}, author={Trapoom Ukarapol and Nut Chukamphaeng and Kunat Pipatanakul and Pakhapoom Sarapat}, year={2026}, eprint={2603.04992}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2603.04992}, } ```

提供机构：

Highgroundbkk

5,000+

优质数据集

54 个

任务类型

进入经典数据集