seanghay/khmerfonts-info-previews
收藏数据集信息
许可证
- 许可证: cc-by-4.0
语言
- 语言: 高棉语 (km)
数据集名称
- 名称: khmerfonts
数据集特征
- 特征:
- 名称: file_name
- 数据类型: image
- 名称: text
- 数据类型: string
- 名称: file_name
数据集详情
- 总文件数: 26,591 文件
- 总字体数: 2,972 字体
- 总句子数: 10
数据集创建信息
- 所有图像从 khmerfonts.info 下载,使用以下脚本生成文件列表并下载:
python with open("filelist.txt", "w") as outfile: items = [ f"https://www.khmerfonts.info/preview.php?font={font + 1}&sample={sample + 1} out=khmerfonts-{font + 1}-{sample + 1}.png" for font in range(2972) # maximum id at the moment for sample in range(10) ] outfile.write(" ".join(items))
- 使用
aria2c下载所有文件:
shell aria2c -i filelist.txt -d data -j16
- 查找并删除 0 字节文件:
shell find data/ -size 0 -delete
- 句子列表:
python
sentences = [
"ជាតិពាលមិនដឹងគួរ គ្មានគេសួរសោកចង់ជាក់ ឆ្លើយឆ្លងផងរាក់ទាក់ ក្បួនហិនលក្ខណ៍ធ្លាក់លើខ្លួន ។",
"ចងអ្វីមិនជាប់ស្មើសង្សារ ការអ្វីមិនស្មើការប្រតិបត្តិ ស្ងាត់អ្វីមិនស្មើចិត្តអរហត្ត កាចអ្វីមិនស្មើចិត្តពាលា ។",
"ចំណេះវិជ្ជាលោកចែងចាត់ ទុកជាសម្បត្តិសំបូរបាន ទោះបីក្រក្សត់អត់ប៉ុន្មាន គង់តែបានគ្រាន់អាស្រ័យ ។",
"ឈ្លោះគ្នាក្នុងគ្រួសារ ដូចស្រាតកាយាបង្ហាញញាតិ ឈ្លោះគ្នាក្នុងសង្គមជាតិ ដូចលាតកំណប់បង្ហាញចោរ ។",
"ជាប់ជ្រួលច្រវាក់ភក្ត្រស្រស់ស្រាយ គួរខ្លាចខ្លួនក្លាយជាក្លៀវក្លា វង្វេងផ្លូវមិនសួរនរណា តនឹងបច្ចាឥតអាវុធ ។",
"កុំគិតតែរៀនចង់ធ្វើមន្ត្រី ស្អប់ខ្ពើមភក់ដីនាំអោយក្រ ត្រូវរៀនធ្វើជាកសិករ ទើបមានទ្រព្យតទៅខាងក្រោយ ។",
"ជនណាទ្រាំអត់ ខន្តីសង្កត់ រក្សាមាយាទ មិនខឹងផ្ដេសផ្ដាស ពួកបណ្ឌិតជាតិ សរសើរជាអាទ៍ ថាអ្នកធ្ងន់ធ្ងរ ។",
"ជនពាលដល់ពេលកើតកលិយុគ ទេវតាឲ្យទុក្ខចាំផ្ដន្ទា ពួកប្រាជ្ញសប្បរសកាន់ធម្មា ដល់ពេលទុក្ខាទេវតាជួយ ។",
"ចង់ល្អហួសមាឌ ចង់បានហួសខ្នាតកំរិតមាត្រា មិនបានដូចប៉ង បំណងប្រាថ្នា ខូចទាំងទ្រព្យា គួរបានក៏បង់ ។",
"ជាតិមនុស្សពាលពោលមិនពិត កុំយកធ្វើមិត្តខាតរបស់ មនុស្សសុចរិតចិត្តសប្បុរស ស្រឡាញ់ស្មោះចិត្តឲ្យស្មើ ។",
]




