Plaud AI 聲音轉文字工具和其他方案

新年期間到深圳拜年和遊玩,到訪了我好喜歡的「順電」家品店。可能大陸的網購太盛行,每次來訪店內都不太多人。不過人不多更好,可以一個人享受偌大的空間。有些店大到可以有咖啡室,累了坐坐休息一下也 OK! 

AI Speech to text 工具: Plaud 

當中我最喜歡看的是電腦週邊產品 Gadget 。每次去到都有一些新發現。好多產品的造工和設計都很國際化,不再是十幾廿年前的山寨廠的「下欄」設計款式。

今次吸引我的是 Plaud AI 會議紀錄機,可以認出過百種語言,然後可以即時轉錄會議內容。價錢也不貴,只賣人民幣 1100 左右。如果用來做日常商務用途,這是極親民的價錢,更可以切實地省下許多行政和工作時間。

Plaud Note 的攤位
Plaud Note Pro 和 NotePin S 的攤位
Plaud Note Pro - AI 轉錄聲音變文字工具
Plaud Note Pro – AI 轉錄聲音變文字工具

聲音轉文字的工具介紹:

各間 AI 大廠都會有推出自家的 Speech to text (STT)  模組:

  • Google Speech to text
  • Amazon Transcribe 
  • 最出名的應該是 Open AI 的開源工具: Whisper  
    • 可以參考 GitHub 內的詳情和參數;
    • 當中已經有超過 680,000 hrs 的訓練,而有1/3 的樣本是來自非英語內容;
    • 香港常用的廣東話,普通話和英文 Whisper 都可以支持。當然你要越精確的話, Whisper 的模型就要更大,當然也更需要電腦的算力;

當然,使用開源最優點是免費,又可以自行調較用量和用法,但需要一定技術和足夠的運算力。如果你需要就一些機密資料和對話作轉錄,那使用開源,本地化部署就是不二選擇。

但一般用戶,比如學生上課抄筆記,工作時會議紀錄等等,使用現有的工具其實更划算,更節省時間。

一些現有 Whisper 工具推介 (需要付費):

  • Whisper AI
  • Mac Whisper (曾經用過免費版本,英文效果不錯,廣東話就建議使用付費版本)

重要: 一般用戶的電腦大部分都未能快速地轉錄聲音,特別是長時間的錄音,花費的時間會更長。 我可以給一個參考: 曾經我有一段 60 分鐘的訪問, 使用本地電腦需要等同的時間去給 AI 分析轉成文字。 用戶必要衡量:

  1. 內容是否機要
  2. 當中有沒有含有個人隱私等資訊 (如學歷、病歷等)
  3. 平衡處理時間

再決定是否要把聲訊檔案放上去雲端作處理。

可否自己做一個 STT 聲音轉文字的工具?

自從做了 AI 的諮詢和顧問的工作,原來不少人對轉錄文字有很大需求。有人問可否做一隻類似的工具來賺錢?😅

我自己覺得當用來體驗和試玩 Vibe Coding 練練手,或者理解 AI 工作原理沒有問題。但不要打算用來變成大生意。一來市場上已有不少相當優秀的產品,二來面對大陸市場競爭,它們產品已經好價廉物美,在香港做開發和硬體真的好難去競爭。第三,我估計日後各大 AI 品牌都會把 Speech to text / text to image / text to video 等功能玩得淋漓盡致,留給獨立公司的位置真的不多。

若果大家喜歡這種生活化又講到 AI 的題材內容,歡迎留言話我知。✅

1. 若果內容實用有趣,歡迎請飲杯咖啡支持:

2. 訂閱網站內容,不會遺漏最快最新的 AI 和營銷小知識:

3. 推薦使用 WordPress 寄存空間: Kinsta

歡迎留言:

This site uses Akismet to reduce spam. Learn how your comment data is processed.