6

小試 OpenAI Whisper 語音轉文字

 1 year ago
source link: https://blog.darkthread.net/blog/openai-whisper/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

小試 OpenAI Whisper 語音轉文字

calendar.svg 2023-06-23 02:49 PM comment.svg 1 eye.svg 571

影片轉逐字稿,之前玩過 Azure Speech-To-Text,這回試試 OpenAI Whisper

註:若你只想要魚,對撈魚或釣魚沒興趣,可考慮用現成工具 Whisper Desktop,能直接將 MP3 或麥克風輸入轉成文字稿。

OpenAI Whisper 有五種模型大小,大模型精準度較高,但耗用資源多,處理速度慢。除了最大模型之外,另外有英語專用模型,提供更好的識別率。

Fig1_638230999808333210.png

Whisper 支援多種語言,68 萬小時的訓練資料中,有 11.7 萬小時包含 96 種各國語言 參考來源,想當然爾英文的識別精準度最佳,中文的錯誤率(Word Error Rate, WER)約 14.7%。

Fig2_638230999811892995.png

以下是我實測在 Windows 安裝及執行 Whisper 的記錄:

  1. 安裝 Python choco install -y python
  2. 安裝 PyTorch
    官網選擇作業系統、語言平台、CUDA/CPU 決定安裝指令
    Fig3_638230999813685562.png
    pip3 install torch torchvision torchaudio
  3. 安裝 Whisper
    pip install -U openai-whisper
  4. 安裝影音轉檔工具 ffmpeg
    choco install -y ffmpeg
    轉檔小筆記
    # M4A 轉 MP3 
    ffmpeg -i input.m4a output.mp3 # 124K
    # https://superuser.com/a/704535/264724
    ffmpeg -i input.m4a -c:v copy -c:a libmp3lame -q:a 4 output.mp3
    # MP4 擷取 MP3 https://superuser.com/a/332348/264724
    ffmpeg -i video.mp4 -b:a 192K -vn music.mp3
    
  5. 轉檔
    whisper talk.mp3 --language Chinese --model medium

我先實測了電腦語音旁白,準確度精準到嚇人,錯字極少(專有名詞如態疊加、波包、波粒二象性理解錯無可厚非),以及偶爾出現漏抓,例如一句話的後半段不見。

Fig4_638230999817250656.png

我也試了真人口語,準確度依然是出奇的好!

Fig5_638230999819314148.png

有趣的是,Whisper 目前的中文語言選項只有 Chinese (或縮寫 zh) 無法再細分,Whisper 會自己決定翻成繁體還是簡體,像是量子力學影片被轉成繁體中文、李永樂老師的影片則被判斷轉成簡體。在網路上找到 Workaround - 加上 --initial_prompt="..." 進行提示(在進行這段語音前的前言,不知道輸入什麼的話,就放第一句文字的繁體或簡體字串),其使用繁體或簡體可決定整篇翻譯使用語系:

Fig7_638230999821314515.png

Fig8_638230999823294438.png

之前玩 AI 都是用線上服務,在自己的硬體上跑,對於 「AI 需要大量算力」這事兒有了全新體會。用 CPU 轉檔效能比我預期的慢很多,在 32 核 CPU 主機上跑(無獨立顯卡/GPU/CUDA,純靠 CPU),用 Medium 模型轉換一分鐘語音需要花五分鐘,三十分鐘要花兩個多小時,粗估大約一分鐘不到一百個中文字。

Fig6_638231000550118908.png

找到網路上有個 13 分鐘音檔 Medium 模型評測,RTX 3050 為每分鐘 1328 個字(WPM),RTX 3060 1594 WPM、RTX 4090 3131 WPM,速度相差十倍以上。

過去老覺得自己不玩遊戲,買工作機完全不需考慮獨立顯卡,多花錢又浪費電。但 AI 時代一切改觀了,工作研究也需要高檔顯卡才能盡興,哈!

  • Posted in
  • AI

and has 1 comment

Comments

Post a comment

Comment
Name Captcha 67 - 18 =

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK