新年期間到深圳拜年和遊玩,到訪了我好喜歡的「順電」家品店。可能大陸的網購太盛行,每次來訪店內都不太多人。不過人不多更好,可以一個人享受偌大的空間。有些店大到可以有咖啡室,累了坐坐休息一下也 OK!
AI Speech to text 工具: Plaud
當中我最喜歡看的是電腦週邊產品 Gadget 。每次去到都有一些新發現。好多產品的造工和設計都很國際化,不再是十幾廿年前的山寨廠的「下欄」設計款式。
今次吸引我的是 Plaud AI 會議紀錄機,可以認出過百種語言,然後可以即時轉錄會議內容。價錢也不貴,只賣人民幣 1100 左右。如果用來做日常商務用途,這是極親民的價錢,更可以切實地省下許多行政和工作時間。


聲音轉文字的工具介紹:
各間 AI 大廠都會有推出自家的 Speech to text (STT) 模組:
- Google Speech to text
- Amazon Transcribe
- 最出名的應該是 Open AI 的開源工具: Whisper
- 可以參考 GitHub 內的詳情和參數;
- 當中已經有超過 680,000 hrs 的訓練,而有1/3 的樣本是來自非英語內容;
- 香港常用的廣東話,普通話和英文 Whisper 都可以支持。當然你要越精確的話, Whisper 的模型就要更大,當然也更需要電腦的算力;
當然,使用開源最優點是免費,又可以自行調較用量和用法,但需要一定技術和足夠的運算力。如果你需要就一些機密資料和對話作轉錄,那使用開源,本地化部署就是不二選擇。
但一般用戶,比如學生上課抄筆記,工作時會議紀錄等等,使用現有的工具其實更划算,更節省時間。
一些現有 Whisper 工具推介 (需要付費):
- Whisper AI
- Mac Whisper (曾經用過免費版本,英文效果不錯,廣東話就建議使用付費版本)
重要: 一般用戶的電腦大部分都未能快速地轉錄聲音,特別是長時間的錄音,花費的時間會更長。 我可以給一個參考: 曾經我有一段 60 分鐘的訪問, 使用本地電腦需要等同的時間去給 AI 分析轉成文字。 用戶必要衡量:
- 內容是否機要
- 當中有沒有含有個人隱私等資訊 (如學歷、病歷等)
- 平衡處理時間
再決定是否要把聲訊檔案放上去雲端作處理。
可否自己做一個 STT 聲音轉文字的工具?
自從做了 AI 的諮詢和顧問的工作,原來不少人對轉錄文字有很大需求。有人問可否做一隻類似的工具來賺錢?😅
我自己覺得當用來體驗和試玩 Vibe Coding 練練手,或者理解 AI 工作原理沒有問題。但不要打算用來變成大生意。一來市場上已有不少相當優秀的產品,二來面對大陸市場競爭,它們產品已經好價廉物美,在香港做開發和硬體真的好難去競爭。第三,我估計日後各大 AI 品牌都會把 Speech to text / text to image / text to video 等功能玩得淋漓盡致,留給獨立公司的位置真的不多。
若果大家喜歡這種生活化又講到 AI 的題材內容,歡迎留言話我知。✅
