首先 我是網頁搜尋到這篇文的
平常沒來這版,不過因為網路上討論很少
就稍微回覆一下,做個筆記順便讓之後需要的人能夠方便些
你遇到的就是文字還有語音轉換的問題
這要分兩個部分講
第一個部分是文字轉語音TTS (Text to Speech)
先推薦一個軟體
Balabolka
網址在此
https://cross-plus-a.com/balabolka.htm
(有中文版)
安裝完之後打開 把文字放進去就可以叫他唸了
他所調用的語音引擎是windows內建的
假如系統是WIN10新版本,可以調用SAPI5的語音
預設的繁體中文語音是涵涵(微軟會把語音取名子)
如果想用另外兩個SAPI5的語音(雅婷.志威)
請參考這裡
https://class.kh.edu.tw/19061/bulletin/msg_view/400
下載REG登錄檔 裝好之後就有了
以上是Balabolka調用本機(不連網)的語音引擎
假如是想要用線上語音引擎
在Balabolka->工具->Use online TTS services
快速鍵shift+ctrl+D
就可以使用一堆的線上TTS
而且可以直接轉存聲音檔
Google TTS1 TTS2是免費的 直接把文字打進去就能用
Google Cloud TTS要收錢
但是效果真的比較好
免費體驗網址在這
https://cloud.google.com/text-to-speech
註冊方式請參考
https://www.youtube.com/watch?v=y_vQvAqgqgA
免費:每月免費100萬字(WaveNet)
收費:每100萬字 16美元
小量使用通常不會收到錢
另外Google Cloud TTS裡面的standard語音和Google TTS2是一樣的,不要浪費額度去開
另外一個是Micosoft Azure TTS
一樣是收錢
體驗網址:
https://azure.microsoft.com/zh-tw/services/cognitive-services/text-to-speech/
註冊方式:
https://www.youtube.com/watch?v=WZi0fhJtLJI
免費:每月免費50萬字(神經網路)
收費:每100萬字 NT$480.868
然後裡面的涵涵.雅婷.志威是電腦WIN10就有內建可以調用 不要浪費額度去開
至於其他線上TTS 不成氣候 不推
第二部分
語音轉文字
一樣是GOOGLE還有AZURE兩家
體驗網址:
https://azure.microsoft.com/zh-tw/services/cognitive-services/speech-to-text/#features
https://cloud.google.com/speech-to-text?hl=zh-TW
我拿上面文字轉語音的音檔去餵
成功率挺高的,就是有些字會識別成同音字,這要手動修正一下
但是拿演講的錄音檔輸入進去
辨識就是很糟糕了
有在用pyTranscriber應該就知道體驗的結果
反正就是目前的語音轉文字 必定還要花時間去修正
不過順便提一下
之前在看有話好說的節目,節目使用交大的AI軟體,準確率幾乎是100%
連來賓突然講台語照樣輸出
不過目前沒有公開,花錢也買不到,假如公開在台灣腔轉文字就是打爆GOOGLE和AZURE
※ 引述《h07860251 (無法顯示)》之銘言:
: 最近嘗試做影片
: 計畫是使用GOOGLE語音+自動上字幕
: 結果實際使用完全跟想像的不一樣
: 超級不順利
: 首先
: 為了生成GOOGLE語音
: 事先用記事本紀錄了腳本
: 然後嘗試使用網路上說的兩種方法
: 第一種是使用GOOGLE翻譯網頁讓他朗讀+電腦錄音軟體錄製
: 缺點:網頁有字數限制(看起來是限制5000字)、而且耗時很久
: 第二種是像 Sound of Text 網頁方法的但字數更短
: 或是說使用F12從Media 抓取的話 太長會被自動分段也不是很方便...
: 總之GOOGLE語音檔會有一種沒分割的完整檔,或是小段小段的分割檔
: 不是影片去搭配語音,就是語音去切割搭配影片
: 這兩種要看狀況,都有適合的時機
: 然後影片跟聲音製作完成要去製作字幕的時候
: 使用網路上推薦的免費AI字幕生成(pyTranscriber)
: 結果正確率低到爆炸,GOOGLE語音比人聲難辨識阿
: 而且該軟體網路上說使用的是 Google 語音識別來產生的字幕
: 結果自己產出的語音自己的辨識系統分不出來....
: 為了調整正確率
: 使用網路上推薦的免費字幕編輯軟體(Aegisub)
: 搭配使用起來因為已經有腳本了
: 原本想說應該只要複製貼上過去很快就結束
: 結果他斷句怪怪的,又要細部微調
: 感覺做了很多無用功.......
: 最後要上傳YOUTUBE
: 自己本身也習慣內建字幕
: 去網路上找合成影片跟字幕的軟體
: 結果合成上去發現字體不一樣
: 然後排版也不太一樣... 應該是軟體差異造成
: 只是沒看到想用的免費軟體....(大陸的先不要...)
: 感覺我整個流程繞了超級大圈
: 有沒有什麼建議可以提供
: 在下感激不盡....
: -----
: 順帶一提,目前我使用Shotcut這款(免費軟體)來剪輯
: 查了一下,這款是可以上文字,但是還沒有支援SRT字幕等等功能
: 之前是有用過DaVinci Resolve (聽說調色特別厲害)
: 只是他雖然說是免費的,但是還是跟付費版有差別
: 上網查了一些教學,結果是付費版才有的功能
: 大失望就換軟體了...
: 最後再問一下
: GOOGLE語音是可以隨便使用(包含商業使用)嗎?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.239.186.13 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/youtuber/M.1626333090.A.FD7.html
... <看更多>
speech to text ptt 在 Re: [討論] 上字幕的流程問題- 看板youtuber 的推薦與評價
首先 我是網頁搜尋到這篇文的
平常沒來這版,不過因為網路上討論很少
就稍微回覆一下,做個筆記順便讓之後需要的人能夠方便些
你遇到的就是文字還有語音轉換的問題
這要分兩個部分講
第一個部分是文字轉語音TTS (Text to Speech)
先推薦一個軟體
Balabolka
網址在此
https://cross-plus-a.com/balabolka.htm
(有中文版)
安裝完之後打開 把文字放進去就可以叫他唸了
他所調用的語音引擎是windows內建的
假如系統是WIN10新版本,可以調用SAPI5的語音
預設的繁體中文語音是涵涵(微軟會把語音取名子)
如果想用另外兩個SAPI5的語音(雅婷.志威)
請參考這裡
https://class.kh.edu.tw/19061/bulletin/msg_view/400
下載REG登錄檔 裝好之後就有了
以上是Balabolka調用本機(不連網)的語音引擎
假如是想要用線上語音引擎
在Balabolka->工具->Use online TTS services
快速鍵shift+ctrl+D
就可以使用一堆的線上TTS
而且可以直接轉存聲音檔
Google TTS1 TTS2是免費的 直接把文字打進去就能用
Google Cloud TTS要收錢
但是效果真的比較好
免費體驗網址在這
https://cloud.google.com/text-to-speech
註冊方式請參考
https://www.youtube.com/watch?v=y_vQvAqgqgA
免費:每月免費100萬字(WaveNet)
收費:每100萬字 16美元
小量使用通常不會收到錢
另外Google Cloud TTS裡面的standard語音和Google TTS2是一樣的,不要浪費額度去開
另外一個是Micosoft Azure TTS
一樣是收錢
體驗網址:
https://azure.microsoft.com/zh-tw/services/cognitive-services/text-to-speech/
註冊方式:
https://www.youtube.com/watch?v=WZi0fhJtLJI
免費:每月免費50萬字(神經網路)
收費:每100萬字 NT$480.868
然後裡面的涵涵.雅婷.志威是電腦WIN10就有內建可以調用 不要浪費額度去開
至於其他線上TTS 不成氣候 不推
第二部分
語音轉文字
一樣是GOOGLE還有AZURE兩家
體驗網址:
https://azure.microsoft.com/zh-tw/services/cognitive-services/speech-to-text/#features
https://cloud.google.com/speech-to-text?hl=zh-TW
我拿上面文字轉語音的音檔去餵
成功率挺高的,就是有些字會識別成同音字,這要手動修正一下
但是拿演講的錄音檔輸入進去
辨識就是很糟糕了
有在用pyTranscriber應該就知道體驗的結果
反正就是目前的語音轉文字 必定還要花時間去修正
不過順便提一下
之前在看有話好說的節目,節目使用交大的AI軟體,準確率幾乎是100%
連來賓突然講台語照樣輸出
不過目前沒有公開,花錢也買不到,假如公開在台灣腔轉文字就是打爆GOOGLE和AZURE
※ 引述《h07860251 (無法顯示)》之銘言:
: 最近嘗試做影片
: 計畫是使用GOOGLE語音+自動上字幕
: 結果實際使用完全跟想像的不一樣
: 超級不順利
: 首先
: 為了生成GOOGLE語音
: 事先用記事本紀錄了腳本
: 然後嘗試使用網路上說的兩種方法
: 第一種是使用GOOGLE翻譯網頁讓他朗讀+電腦錄音軟體錄製
: 缺點:網頁有字數限制(看起來是限制5000字)、而且耗時很久
: 第二種是像 Sound of Text 網頁方法的但字數更短
: 或是說使用F12從Media 抓取的話 太長會被自動分段也不是很方便...
: 總之GOOGLE語音檔會有一種沒分割的完整檔,或是小段小段的分割檔
: 不是影片去搭配語音,就是語音去切割搭配影片
: 這兩種要看狀況,都有適合的時機
: 然後影片跟聲音製作完成要去製作字幕的時候
: 使用網路上推薦的免費AI字幕生成(pyTranscriber)
: 結果正確率低到爆炸,GOOGLE語音比人聲難辨識阿
: 而且該軟體網路上說使用的是 Google 語音識別來產生的字幕
: 結果自己產出的語音自己的辨識系統分不出來....
: 為了調整正確率
: 使用網路上推薦的免費字幕編輯軟體(Aegisub)
: 搭配使用起來因為已經有腳本了
: 原本想說應該只要複製貼上過去很快就結束
: 結果他斷句怪怪的,又要細部微調
: 感覺做了很多無用功.......
: 最後要上傳YOUTUBE
: 自己本身也習慣內建字幕
: 去網路上找合成影片跟字幕的軟體
: 結果合成上去發現字體不一樣
: 然後排版也不太一樣... 應該是軟體差異造成
: 只是沒看到想用的免費軟體....(大陸的先不要...)
: 感覺我整個流程繞了超級大圈
: 有沒有什麼建議可以提供
: 在下感激不盡....
: -----
: 順帶一提,目前我使用Shotcut這款(免費軟體)來剪輯
: 查了一下,這款是可以上文字,但是還沒有支援SRT字幕等等功能
: 之前是有用過DaVinci Resolve (聽說調色特別厲害)
: 只是他雖然說是免費的,但是還是跟付費版有差別
: 上網查了一些教學,結果是付費版才有的功能
: 大失望就換軟體了...
: 最後再問一下
: GOOGLE語音是可以隨便使用(包含商業使用)嗎?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.239.186.13 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/youtuber/M.1626333090.A.FD7.html
... <看更多>
相關內容