LC-STAR Standard Arabic Phonetic lexicon|语音识别数据集|阿拉伯语数据集

catalogue.elra.info2008-02-12 更新2025-03-22 收录

语音识别

阿拉伯语

下载链接：

https://catalogue.elra.info/en-us/repository/browse/ELRA-S0247/

下载链接

链接失效反馈

资源简介：

The LC-STAR Standard Arabic Phonetic lexicon was created within the scope of the LC-STAR project (IST 2001-32216) which was sponsored by the European Commission.The lexicon comprises 110,271 entries, distributed over three categories:-a set of 52,981 common word entries. This set is extracted from a corpus of more than 13 million words distributed over 6 different domains (sports/games, news, finance, culture/entertainment, consumer information, personal communications). This was done with the aim of reaching a target for each domain of at least 95% self coverage. In addition to extracting word lists from the corpus, a list of closed set (function) word classes are included in the final word list.-a set of 50,135 proper names (including person names, family names, cities, streets, companies and brand names) divided into 3 domains. Multiple word names such as New_York are kept together in all three domains, and they count as one entry. The 3 domains consist of first and last names (9,738 different entries), place names (22,998 different entries), and organisations (17,309 different entries).-and a list of 7,155 special application words translated from English terms defined by the LC-STAR consortium. This list contains: numbers, letters, abbreviations and specific vocabulary for applications controlled by voice (information retrieval, controlling of consumer devices, etc.). The lexicon is provided in XML format and includes phonetic transcriptions in SAMPA. The database is stored on 1 CD.

LC-STAR标准阿拉伯语语音词典是在LC-STAR项目（IST 2001-32216）的框架内创建的，该项目由欧洲委员会资助。该词典包含110,271个条目，分布于三个类别中：一组52,981个常用词汇条目，该组条目源自超过1300万个单词的语料库，这些单词分布在6个不同的领域（体育/游戏、新闻、金融、文化/娱乐、消费者信息、个人通讯）。此举旨在确保每个领域的覆盖率至少达到95%。除从语料库中提取词汇表外，还包括了封闭集（功能）词类的词汇表，这些词汇表最终纳入了词汇表中。另一组50,135个专有名词（包括人名、姓氏、城市、街道、公司和品牌名称），分为3个领域。所有三个领域都保留了多词名称，如New_York，它们在所有三个领域中均被视为一个条目。这3个领域包括名和姓（9,738个不同条目）、地名（22,998个不同条目）和机构（17,309个不同条目）。此外，还包括了由LC-STAR联盟定义的英语术语翻译的7,155个特殊应用词汇。该列表包含数字、字母、缩写以及语音控制应用（信息检索、控制消费设备等）的特定词汇。词典以XML格式提供，并包含SAMPA音标转写。数据库存储在1张CD上。

提供机构：

ELRA Catalogue of Language Resources

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

FSDD

FSDD（Free Spoken Digit Dataset）是一个开源的语音数据集，包含由不同说话者朗读的数字0到9的音频文件。该数据集旨在用于语音识别和机器学习算法的训练和测试。

github.com 收录

CIFAR-10

CIFAR-10 数据集由 10 个类别的 60000 个 32x32 彩色图像组成，每个类别包含 6000 个图像。有 50000 个训练图像和 10000 个测试图像。数据集分为五个训练批次和一个测试批次，每个批次有 10000 张图像。测试批次恰好包含来自每个类别的 1000 个随机选择的图像。训练批次包含随机顺序的剩余图像，但一些训练批次可能包含来自一个类的图像多于另一个。在它们之间，训练批次恰好包含来自每个类别的 5000 张图像。

OpenDataLab 收录