小試 OpenAI Whisper 語音轉文字

2023-06-23 02:49 PM

571

影片轉逐字稿，之前玩過 Azure Speech-To-Text，這回試試 OpenAI Whisper。

註：若你只想要魚，對撈魚或釣魚沒興趣，可考慮用現成工具 Whisper Desktop，能直接將 MP3 或麥克風輸入轉成文字稿。

OpenAI Whisper 有五種模型大小，大模型精準度較高，但耗用資源多，處理速度慢。除了最大模型之外，另外有英語專用模型，提供更好的識別率。

Whisper 支援多種語言，68 萬小時的訓練資料中，有 11.7 萬小時包含 96 種各國語言參考來源，想當然爾英文的識別精準度最佳，中文的錯誤率(Word Error Rate, WER)約 14.7%。

以下是我實測在 Windows 安裝及執行 Whisper 的記錄：

安裝 Python choco install -y python
安裝 PyTorch
在官網選擇作業系統、語言平台、CUDA/CPU 決定安裝指令

pip3 install torch torchvision torchaudio
安裝 Whisper
pip install -U openai-whisper

安裝影音轉檔工具 ffmpeg
choco install -y ffmpeg
轉檔小筆記

# M4A 轉 MP3 
ffmpeg -i input.m4a output.mp3 # 124K
# https://superuser.com/a/704535/264724
ffmpeg -i input.m4a -c:v copy -c:a libmp3lame -q:a 4 output.mp3
# MP4 擷取 MP3 https://superuser.com/a/332348/264724
ffmpeg -i video.mp4 -b:a 192K -vn music.mp3

轉檔
whisper talk.mp3 --language Chinese --model medium

我先實測了電腦語音旁白，準確度精準到嚇人，錯字極少(專有名詞如態疊加、波包、波粒二象性理解錯無可厚非)，以及偶爾出現漏抓，例如一句話的後半段不見。

我也試了真人口語，準確度依然是出奇的好!

有趣的是，Whisper 目前的中文語言選項只有 Chinese (或縮寫 zh) 無法再細分，Whisper 會自己決定翻成繁體還是簡體，像是量子力學影片被轉成繁體中文、李永樂老師的影片則被判斷轉成簡體。在網路上找到 Workaround - 加上 --initial_prompt="..." 進行提示(在進行這段語音前的前言，不知道輸入什麼的話，就放第一句文字的繁體或簡體字串)，其使用繁體或簡體可決定整篇翻譯使用語系：

之前玩 AI 都是用線上服務，在自己的硬體上跑，對於「AI 需要大量算力」這事兒有了全新體會。用 CPU 轉檔效能比我預期的慢很多，在 32 核 CPU 主機上跑(無獨立顯卡/GPU/CUDA，純靠 CPU)，用 Medium 模型轉換一分鐘語音需要花五分鐘，三十分鐘要花兩個多小時，粗估大約一分鐘不到一百個中文字。

找到網路上有個 13 分鐘音檔 Medium 模型評測，RTX 3050 為每分鐘 1328 個字(WPM)，RTX 3060 1594 WPM、RTX 4090 3131 WPM，速度相差十倍以上。

過去老覺得自己不玩遊戲，買工作機完全不需考慮獨立顯卡，多花錢又浪費電。但 AI 時代一切改觀了，工作研究也需要高檔顯卡才能盡興，哈!

Posted in
AI

and has 1 comment

小試 OpenAI Whisper 語音轉文字

小試 OpenAI Whisper 語音轉文字

Comments

Post a comment

Recommend

真正的高手，都是贝叶斯主义者

Proceedings of the 19th Workshop on Hot Topics in Operating Systems

TCL：敢为上游不畏难 - 电科技 | 创新未来与你同行

Adobe XD Might Be Reaching The End Of The Line

Tutroial: Cloud-based Backend Integration with Azure Mobile Apps

破防了，预知自己的产品能否在亚马逊卖爆？！三步法马上来了解

匿名功能遭举报，知乎周源回应；苹果推出 visionOS 软件开发包；跟随索尼，XBox 订阅...

即学即用的文案高手写作锦囊（02）

US Coast Guard Confirms Titan Submersible Was Lost In 'Catastrophic Implosion'

Instalaciones del curso de Flutter - Móvil de cero a experto

About Joyk