(简体中文|English)

ModelScope上的预训练模型

模型许可协议

您可以在本协议的条件下自由使用、复制、修改和分享FunASR模型。在使用、复制、修改和分享FunASR模型时,您应当标明模型来源和作者信息。您应当在[FunASR软件]中保留相关模型的名称。完整的模型许可证请参见 模型许可协议

模型用法

模型用法参考文档

模型仓库

这里我们提供了在不同数据集上预训练的模型。模型和数据集的详细信息可在 ModelScope中找到.

语音识别模型

Paraformer模型

模型名字 语言 训练数据 词典大小 参数量 非实时/实时 备注
Paraformer-large 中文和英文 阿里巴巴语音数据(60000小时) 8404 220M 非实时 输入wav文件持续时间不超过20秒
Paraformer-large长音频版本 中文和英文 阿里巴巴语音数据(60000小时) 8404 220M 非实时 能够处理任意长度的输入wav文件
Paraformer-large-en长音频版本 英文 阿里巴巴语音数据(50000小时) 10020 220M 非实时 能够处理任意长度的输入wav文件
Paraformer-large-Spk 中文和英文 阿里巴巴语音数据(60000小时) 8404 220M 非实时 在长音频功能的基础上添加说话人识别功能
Paraformer-large热词 中文和英文 阿里巴巴语音数据(60000小时) 8404 220M 非实时 基于激励增强的热词定制支持,可以提高热词的召回率和准确率,输入wav文件持续时间不超过20秒
Paraformer 中文和英文 阿里巴巴语音数据(50000小时) 8358 68M 离线 输入wav文件持续时间不超过20秒
Paraformer实时 中文和英文 阿里巴巴语音数据 (50000hours) 8404 68M 实时 能够处理流式输入
Paraformer-large实时 中文和英文 阿里巴巴语音数据 (60000hours) 8404 220M 实时 能够处理流式输入
Paraformer-tiny 中文 阿里巴巴语音数据 (200hours) 544 5.2M 非实时 轻量级Paraformer模型,支持普通话命令词识别
Paraformer-aishell 中文 AISHELL (178hours) 4234 43M 非实时 学术模型
ParaformerBert-aishell 中文 AISHELL (178hours) 4234 43M 非实时 学术模型
Paraformer-aishell2 中文 AISHELL-2 (1000hours) 5212 64M 非实时 学术模型
ParaformerBert-aishell2 中文 AISHELL-2 (1000hours) 5212 64M 非实时 学术模型

UniASR模型

模型名字 语言 训练数据 Vocab Size Parameter 非实时/实时 备注
UniASR 中文和英文 阿里巴巴语音数据 (60000 小时) 8358 100M 实时 流式离线一体化模型
UniASR-large 中文和英文 阿里巴巴语音数据 (60000 小时) 8358 220M 非实时 流式离线一体化模型
UniASR English 英文 阿里巴巴语音数据 (10000 小时) 1080 95M 实时 流式离线一体化模型
UniASR Russian 俄语 阿里巴巴语音数据 (5000 小时) 1664 95M 实时 流式离线一体化模型
UniASR Japanese 日语 阿里巴巴语音数据 (5000 小时) 5977 95M 实时 流式离线一体化模型
UniASR Korean 韩语 阿里巴巴语音数据 (2000 小时) 6400 95M 实时 流式离线一体化模型
UniASR Cantonese (CHS) 粤语(简体中文) 阿里巴巴语音数据 (5000 小时) 1468 95M 实时 流式离线一体化模型
UniASR Indonesian 印尼语 阿里巴巴语音数据 (1000 小时) 1067 95M 实时 流式离线一体化模型
UniASR Vietnamese 越南语 阿里巴巴语音数据 (1000 小时) 1001 95M 实时 流式离线一体化模型
UniASR Spanish 西班牙语 阿里巴巴语音数据 (1000 小时) 3445 95M 实时 流式离线一体化模型
UniASR Portuguese 葡萄牙语 阿里巴巴语音数据 (1000 小时) 1617 95M 实时 流式离线一体化模型
UniASR French 法语 阿里巴巴语音数据 (1000 小时) 3472 95M 实时 流式离线一体化模型
UniASR German 德语 阿里巴巴语音数据 (1000 小时) 3690 95M 实时 流式离线一体化模型
UniASR Persian 波斯语 阿里巴巴语音数据 (1000 小时) 1257 95M 实时 流式离线一体化模型
UniASR Burmese 缅甸语 阿里巴巴语音数据 (1000 小时) 696 95M 实时 流式离线一体化模型
UniASR Hebrew 希伯来语 阿里巴巴语音数据 (1000 小时) 1085 95M 实时 流式离线一体化模型
UniASR Urdu 乌尔都语 阿里巴巴语音数据 (1000 小时) 877 95M 实时 流式离线一体化模型
UniASR Turkish 土耳其语 阿里巴巴语音数据 (1000 小时) 1582 95M 实时 流式离线一体化模型

Conformer模型

模型名字 语言 训练数据 Vocab Size Parameter 非实时/实时 备注
Conformer 中文 AISHELL (178hours) 4234 44M 非实时 输入wav文件持续时间不超过20秒
Conformer 中文 AISHELL-2 (1000hours) 5212 44M 非实时 输入wav文件持续时间不超过20秒
Conformer 英文 阿里巴巴语音数据 (10000hours) 4199 220M 非实时 输入wav文件持续时间不超过20秒

RNN-T 模型

多说话人语音识别模型

MFCCA模型

模型名字 语言 训练数据 Vocab Size Parameter 非实时/实时 备注
MFCCA 中文 AliMeeting、AISHELL-4、Simudata (917hours) 4950 45M 非实时 输入音频的持续时间不超过20秒,输入音频的通道数不超过8通道。

语音端点检测模型

模型名字 训练数据 模型参数 Sampling Rate 备注
FSMN-VAD 阿里巴巴语音数据 (5000hours) 0.4M 16000
FSMN-VAD 阿里巴巴语音数据 (5000hours) 0.4M 8000

标点恢复模型

模型名字 语言 训练数据 模型参数 Vocab Size 非实时/实时 备注
CT-Transformer-Large 中文和英文 Alibaba Text Data(100M) 1.1G 471067 非实时 支持中英文标点大模型
CT-Transformer 中文和英文 Alibaba Text Data(70M) 291M 272727 非实时 支持中英文标点
CT-Transformer-Realtime 中文和英文 Alibaba Text Data(70M) 288M 272727 实时 VAD点实时标点

语音模型

模型名字 训练数据 模型参数 词典大小 备注
Transformer 阿里巴巴语音数据 57M 8404

说话人确认模型

模型名字 训练数据 模型参数 Number Speaker 备注
Xvector CNCeleb (1,200 小时) 17.5M 3465 Xvector, 中文
Xvector CallHome (60 小时) 61M 6135 Xvector,英文

说话人日志模型

模型名字 训练数据 模型参数 备注
SOND AliMeeting (120 小时) 40.5M 中文
SOND CallHome (60 小时) 12M 英文

时间戳预测模型

模型名字 语言 训练数据 模型参数 备注
TP-Aligner 中文 阿里巴巴语音数据 (50000hours) 37.8M 时间戳模型,中文

逆文本正则化

模型名字 语言 模型参数 备注
English EN 1.54M ITN,语音识别文本后处理
Russian RU 17.79M ITN,语音识别文本后处理
Japanese JA 6.8M ITN,语音识别文本后处理
Korean KO 1.28M ITN,语音识别文本后处理
Indonesian ID 2.06M ITN,语音识别文本后处理
Vietnamese VI 0.92M ITN,语音识别文本后处理
Tagalog TL 0.65M ITN,语音识别文本后处理
Spanish ES 1.32M ITN,语音识别文本后处理
Portuguese PT 1.28M ITN,语音识别文本后处理
French FR 4.39M ITN,语音识别文本后处理
German GE 3.95M ITN,语音识别文本后处理