影片提供更詳細的操作流程與轉錄過程,能更快速體驗本篇的內容:
還記得在早期沒有AI工具的學生時代,要做逐字稿幾乎只能一段段人工聽打,不但需要耗費大量時間,同時也顯得較枯燥。
後來智慧型手機開始內建語音辨識功能,雖然也試過幾次,但準確度與實用性都還不理想。
隨著近年語音辨識藉由導入AI技術再進步,語音轉文字已經變得更快、更準確,也更容易整合進日常工作;不論是需要自動產生字幕的影音創作者、想整理會議紀錄或講座筆記的學生與社會人士,甚至需要多語言轉錄的使用者,都能從這類AI工具中受惠。
這次主要以節省時間與提升效率為出發點,實測WhisperDesktop、MyEdit與威力導演三種AI 語音轉文字工具,針對「所需時間」、「準確率」與「方便性」三項重點進行比較,最後會以圖表方式整理差異,方便大家快速了解結果。
過程中使用MSI所推出的16吋AI PC,搭載目前筆電市場頗受好評的Intel Lunar Lake架構,CPU為Core Ultra 7 258V,內建Arc 140V GPU 16GB(64 AI TOPS)、4代NPU(47 AI TOPS),AI算力比上一代分別提升約3、4倍,皆有助於加快本機AI運算速度。
AI PC輕薄的設計除了具備日常攜帶的便利性外,也較以往機種擁有更長效的續航力,讓語音轉文字處理的流程能在戶外或室內等多種情境下順暢進行,兼具效能與行動力的優勢。
接下來便開始進行這三款AI工具的實際使用方式與轉錄表現。
第一個要介紹的工具是WhisperDesktop,是一款基於OpenAI Whisper技術所開發的桌面應用程式,可以在本地端直接進行語音轉文字處理,不需要額外撰寫程式或使用命令列工具,對一般使用者來說相當方便。
這套工具的優點除了免費之外,也支援多國語言辨識,操作介面簡單直覺,很適合用來處理日常的錄音轉錄或字幕生成。
首先要到GitHub下載WhisperDesktop。
設定好模型路徑後就可以開始使用,Model Implementation分為GPU、Hybrid、Reference三種模式。
WhisperDesktop支援音訊與影片檔兩種格式,選擇語言以及要轉錄的檔案,設定好輸出格式與轉錄檔儲存位置後,就能開始轉錄(Transcribe)。
輸出部分可以選擇一般的純文字檔(Text file),或是可直接使用於影片字幕的SRT檔(SubRip Subtitles)。
這次測試分別使用兩段自錄影片進行:
第一段是AI筆電發表說明會現場實拍影片、第二段則是Computex 2025快速帶看Intel攤位影片。
兩支影片中包含環境噪音、背景音樂、單人演說,以及中英文混雜的內容,長度分別為4分40秒與1分23秒。
轉錄時間分別僅需1分30秒與27秒即可完成,將文字檔與原始影片透過一字一句重新人工核對,整理出辨識準確率約落在94~95%。
除了像「Core Ultra」這類專有名詞偶爾會誤判外,大部分中英夾雜的內容都能正確辨識。
更特別的是會自動省略像「嗯」、「那」、「這個」等贅詞,讓逐字稿的可讀性更高。
這一段轉錄時間僅27分52秒就能完成。
實測結果看起來,WhisperDesktop對影片長度沒有限制,整體效率相當優異,也展現出AI PC在本地轉錄任務上的效能優勢。
整體流程相當順暢,也不需要連線雲端就能完成辨識。
接下來要介紹第二種語音轉文字的方法,是透過線上AI工具MyEdit來進行轉錄。
進到MyEdit網頁後,在上方工具列中選擇「音訊編輯工具 => 語音轉文字」,即可進入轉錄頁面。
上傳音訊檔案前,可以先確認語言、檔案格式與長度限制是否支援,每轉錄1分鐘音訊需要消耗1點數。
音訊原聲支援多種語言,匯出時同樣提供純文字檔(Text)或SRT字幕檔兩種格式可選。
這次同樣使用前面提到的兩段影片進行測試:
AI筆電發表說明會(4分40秒)與Intel Computex 2025攤位快速帶看影片(1分23秒)。
產生時間約為23秒與11秒即可完成,速度相當快。
小弟Facebook粉絲團Windwithme WWM 風大,歡迎3C同好參觀指教









