站点介绍
离线运行的本地语音识别转文字工具,基于 fast-whipser 模型。
这是一个离线运行的本地语音识别转文字工具,基于 fast-whipser 开源模型,可将视频/音频中的人类声音识别并转为文字,可输出json格式、srt字幕带时间戳格式、纯文字格式。可用于自行部署后替代 openai 的语音识别接口或百度语音识别等,准确率基本等同openai官方api接口。
部署或下载后,双击 start.exe 自动调用本地浏览器打开本地网页。
拖拽或点击选择要识别的音频视频文件,然后选择发声语言、输出文字格式、所用模型(已内置base模型),点击开始识别,识别完成后以所选格式输出在当前网页。
全过程无需联网,完全本地运行,可部署于内网
fast-whisper 开源模型有 base/small/medium/large-v3, 内置base模型,base->large-v3识别效果越来越好,但所需计算机资源也更多,根据需要可自行下载后解压到 models 目录下即可。