分享好文,中學生要學電腦嗎?
作者:創新工場CTO、人工智慧工程院執行院長 王詠剛
文章来自半轻人微信公众号(ban-qing-ren)
………………………………
朋友的孩子高中剛畢業,已拿到美國頂尖大學(非電腦專業)的錄取通知。疫情影響,不知何時才能去學校報到。孩子想抓緊學習一下程式設計,為大學打好基礎。這孩子找我聊了一個多小時,從如何學程式設計,聊到非電腦專業和電腦專業的路徑差異,又聊到如何從不同角度認識電腦與程式設計。聊得比較寬泛,不知是否對這孩子有用。
回想我自己的高中時代:那時雖迷戀程式設計,卻完全沒有懂行的人指導。在我們那個四線城市的廠礦中學裡,開設電腦興趣課的老師知道的資訊還沒我多。我高一時跑到北京中關村逛街,卻完全沒意識到中國第一代頂尖程式師當時就在我身邊的低矮辦公樓裡寫代碼(這話說得並不準確,比如求伯君那年就主要是在珠海做開發),鼎鼎大名的UCDOS、WPS、CCED就出自他們之手……我在當時街邊的一家書店(位置似乎就在今天的鼎好大廈對面)買到了許多種印刷品質極低劣的電腦圖書。用今天的標準看,那就是一批盜版影印或未授權翻譯的國外圖書。可那批書竟成了我高中時代最寶貴的程式設計知識來源。
顯然,我在高中時根本就是野路子學電腦。現在後悔也沒用,當時我的眼界或能觸及的資源就那麼多。如果能穿越回30年前,我該對喜歡程式設計的自己說些什麼呢?這些年,我與世界上最好的一批程式師合作過,也參與過世界上最有價值的軟體系統研發——我所積累的一些粗淺經驗裡,有哪些可以分享給一個愛程式設計的中學生?
【問題1】中學生要不要學電腦?
當然要!
每個中學生都要學。只不過——建議大部分中學生使用“休閒模式”,小部分(不超過10%)中學生使用“探險模式”。
啊?兩個模式?那我該進入哪個模式?⟹請跳轉至【問題2】
【問題2】選哪個模式?
你癡迷電腦嗎?比如,你玩遊戲時會特別想知道這遊戲背後的代碼是如何編寫的嗎?再比如,就算老師家長不同意你學電腦,甚至當著你的面把電腦砸了,你也要堅持學電腦嗎?如果是,恭喜你進入“探險模式”⟹請跳轉至【問題200】
你對數學有興趣嗎?比如,你看到街邊建築的曲線,就會在腦子裡琢磨曲線對應的函數或方程嗎?每當手裡攥著幾粒骰子,你就會不由自主地計算概率嗎?如果是,歡迎進入“探險模式”⟹請跳轉至【問題200】;當然,如果有些猶豫,也可以先進入“休閒模式”⟹請跳轉至【問題100】
即便你對電腦和數學興趣不大,家長、老師還是強烈建議你學電腦嗎?就算你一百個沒時間一千個不願意,家長、老師還是會逼著你學電腦嗎?如果是,建議你主動進入“休閒模式”並向家長、老師彙報說“我已經按照前谷歌資深軟體工程師的專業建議在認真學程式設計了”⟹請跳轉至【問題100】
其他情況,一律進入“休閒模式”。⟹請跳轉至【問題100】
【問題100】休閒模式 | 主要學什麼?
“休閒模式”將電腦視為我們生活、工作中的必備工具,主要學習如何聰明、高效、優雅地使用計算設備。這裡說的計算設備,包括所有形式的電腦、手機、遊戲機、智慧家電以及未來一定會進入生活的自動駕駛汽車。
什麼什麼?你已經會用電腦、會玩手機、會打遊戲了?別著急,慢慢往下看。
【問題101】休閒模式 | 我會用搜尋引擎嗎?
我知道你會用百度搜習題答案。但,習題答案不是知識。你會用搜尋引擎來搜索和梳理知識嗎?請試著用電腦和你喜歡的搜尋引擎來解決如下兩個問題:
(1)圓周率𝜋的計算方法有多少種?每種不同的計算方法分別是由什麼人在什麼時代提出的?借助電腦,今天人們可以將圓周率𝜋計算到小數點後多少位?將圓周率𝜋計算到小數點這麼多位元,一次大概需要花掉多少度電?
(2)全球大約有多少個廁所?在發展程度不同的國家,分別有多少比例的人可以享用安裝了抽水馬桶的衛生廁所?為什麼比爾·蓋茨曾大力推動一個設計新型馬桶的研發專案?比爾·蓋茨的公益組織在這個專案上大約花費了多少資金,最終收到了多大的效果?
如果你沒法快速得到上述問題的全部答案,那就給自己設一個小目標:一個月內,學會用搜尋引擎系統地獲取、梳理一組知識點的全部技巧。
【問題102】休閒模式 | 接下來學什麼?
建議學好典型的工具軟體。比如,我知道你會用Office了,但用Office和用Office是很不一樣的。對生活、學習、工作來說,學好、學透一個工具軟體比鑽研程式設計技巧更實用。
你會用Excel來管理班級公益基金的預算和實際收支情況嗎?
你會用Excel做出過去20年裡全球大學排名的演變趨勢圖嗎?
你會用Word排版一篇中學生論文嗎?論文中的圖表和最後的參考文獻部分該如何排版?
你會用Word編排一份班級刊物,包含封面、扉頁、目錄、插圖頁、附錄、封底等部分,可以在列印後直接裝訂成冊嗎?
PowerPoint呢?你有沒有研究過蘋果公司發佈會上那些幻燈片的設計?當約伯斯(多年以前)或蒂姆·庫克站在幻燈片前的時候,他們的演講思路是如何與幻燈片完美結合的?
還有哦,別忘了學學如何為數碼照片做後期,如何用電腦或手機剪視頻,如何為剪輯好的視頻配字幕,如何將照片、音樂、視頻等素材結合起來,做出一段吸引人的快手/抖音短視頻。
最後,抽空玩玩那些設計精妙的遊戲吧,比如《紀念碑穀》、《塞爾達傳說:曠野之息》之類;同時,遠離那些滿屏廣告,或者一心騙你在遊戲裡充值花錢的垃圾。
【問題103】休閒模式 | 不學學知識嗎?
當然要學知識。下面每種實用的電腦知識都夠大家學一陣子了。
(1)色彩知識:你知道同一張數碼照片在不同品牌的手機螢幕上、不同的電腦螢幕上、不同的智慧電視上顯示時,為什麼經常有較大色差嗎?你知道有一些色彩只適合螢幕顯示,不適合列印輸出嗎?你知道軟體工具裡常用的RGB、HSL之類的色彩空間都是什麼意思嗎?如何在設計PowerPoint幻燈片時選擇一組和諧美觀的色彩?
(2)字體知識:你知道什麼是襯線字體,什麼是無襯線字體嗎?你知道網頁中常用的英文字體都有哪些嗎?你知道商務演講時最適用于幻燈片的英文字體有哪些嗎?你知道電腦和手機常用的黑體、宋體、仿宋體、楷體等中文字體分別適合哪些實際應用場合嗎?你會將不同字體混排成一個美觀的頁面嗎?
(3)網路知識:你知道5G是什麼嗎?你知道5G和4G在通信頻寬、通信距離上的具體區別嗎?你知道什麼是路由器,什麼是防火牆嗎?你知道如何配置路由器,如何配置防火牆嗎?微信或QQ聊天時,對方發的文字、語音或視頻是如何傳送到你的手機上的?
(4)應用知識:淘寶中搜索得到的商品資訊是從哪裡來的?商品是按什麼方式排序的?為什麼購物APP經常會推薦給你一些曾經買過、看過的商品?你知道如何為自己建立個人網站嗎?你知道如何管理微信公眾號嗎?
(5)安全知識:你知道網路上的釣魚攻擊是怎麼回事兒嗎?你知道什麼是電腦漏洞嗎?你知道駭客為什麼想把一大批受攻擊的電腦變成可以遠端操控的傀儡機嗎?你知道為什麼現在很多手機APP都要通過短信發送驗證碼嗎?如果驗證碼被壞人截獲,你會面臨哪些風險?
這裡只是舉例。實用的電腦知識還有很多。大家可以自己發掘。
【問題104】休閒模式 | 我需要學程式設計嗎?
可以學,但不是必須。即便學,也只需要根據自己的需要,學那些最能幫你解決現實問題的部分。
【問題105】休閒模式 | 我該學什麼程式設計語言?
在“休閒模式”裡,電腦就是工具,程式設計也是工具,夠用就好。學什麼程式設計語言,完全看你想要電腦幫你做什麼。
• 如果你想對資料處理有更多自主權,那不妨學學Python;
• 如果你想做簡單的交互演示程式,那就先把JavaScript學起來;
• 如果你想更好、更快地寫論文,那不妨學學LaTeX(什麼什麼,LaTeX不是程式設計語言?你太小看LaTeX了);
• 如果你想學做簡單的手機APP,那麼,Android手機就學Java,蘋果手機就學Swift好了;
• 如果你只想知道程式設計是怎麼回事,那……從Python或JavaScript開始就行。其實,跟五六歲的小朋友一起學學Scratch圖形程式設計也不錯。
【問題106】休閒模式 | 我需要學人工智慧嗎?
在“休閒模式”裡,最需要學的不是“人工智慧的實現原理”,而是“什麼是人工智慧”,以及“人工智慧能做什麼,不能做什麼”。
• 在手機上試一試,人工智慧做語音辨識時能做到什麼水準?哪些話容易識別,哪些話不容易識別?
• 打開機器翻譯軟體,試一試哪些資訊翻譯得好,哪些資訊翻譯得不好?
• 手機上的拍照軟體一般都有人臉識別功能。試一試人臉識別在什麼場景下做得好,什麼場景下做得不好?
• 找一部講人工智慧的科幻電影,用自己的判斷解讀一下,電影裡哪些技術有可能成為現實,哪些技術存在邏輯矛盾。
【問題107】休閒模式 | 推薦什麼參考書、參考文獻?
書不重要,豆瓣評分7分以上的電腦應用、程式設計甚至科普類圖書都可以拿來翻翻。
直接在知乎裡搜索你想瞭解或學習的知識點可能更有效率。
如果你意猶未盡,覺得自己剛活動開筋骨,還想挑戰更高層次,歡迎進入“探險模式”。⟹請跳轉至【問題200】
否則,“休閒模式”到此結束。⟹請離開此問答
【問題200】探險模式 | 主要學什麼?
“探險模式”需要有挑戰精神。電腦科學的世界技術演進快,脈絡複雜,要想在探索時不迷路,你得通過有順序、有系統地學習電腦知識,慢慢構建出一張可以在未來幫你走得更遠的思維地圖來。
在“探險模式”裡,電腦就不止是一件能快速計算的工具了。電腦更像是我們大腦的一種延伸。這既包括認知能力的延伸,也包括認知邏輯的延伸。隨著學習深入,大家會逐漸體會到電腦所具有的多維度能力:
電腦是一種可以表示不同類型資訊(數、符號、文字、語音、圖像、視頻、虛擬空間、抽象邏輯)的“資訊管理機”;
同時,電腦也是一種可以連續執行指令以完成特定的資訊處理任務的“指令處理機”;
同時,電腦還是一種可以在知識與邏輯層面完成特定推理任務的“知識推理機”;
同時,電腦也是一種可以從人類給定的資料或自我生成的資料中總結規律,建立模型,自主完成某些決策的“智慧學習機”。
“探險模式”的目標就是盡可能準確地認識電腦,掌握有關電腦運行的最基本規律。有了這些基礎。未來在大學期間或工作中,你就能更容易地設計電腦軟硬體系統,或是設計出碳基大腦(人類)與矽基大腦(機器智慧)之間的最佳協作方案。
【問題201】探險模式 | 我的英語水準足夠嗎?
蘋果每年秋季的新品發佈會,不加字幕的話,你能聽懂多少?
能聽懂大部分:建議在學習電腦的過程中,盡可能使用英文教材、英文文檔。
能聽懂小部分:建議將原來準備學電腦的時間,分出一部分來學英語。
只能聽懂“你好”“再見”之類:⟹請離開此問答。然後,把原來準備學電腦的時間用於學英語,六個月後再回來。
【問題202】探險模式 | 我的數學水準足夠嗎?
如果你是數學和數學應用小能手——較複雜的數學問題總能快速找到核心思路,或快速簡化為簡單問題;很容易就能將抽象概念映射到具體的數學圖形,或將數學問題與相應的現實問題關聯在一起:請繼續探險之旅。
如果你應付正常數學課程感到吃力:建議將原來準備學電腦的時間,分出一部分來學數學。
如果你還搞不清楚什麼是方程、函數、集合、概率……:⟹請離開此問答。然後,把原來準備學電腦的時間用於學數學,六個月後再回來。
【問題203】探險模式 | 為什麼強調英語和數學?
(1)統計上說,最好的電腦參考資料大都是英文寫的,最好的電腦課程大都是用英文講的,最新的電腦論文大都是用英文發表的。
(2)函數、方程、坐標系、標量、向量、排列組合、概率這些中學數學裡會初步學習到的數學知識,是電腦科學的基礎。
【問題204】探險模式 | 電腦知識那麼多,正確的學習順序是什麼?
最重要的順序有兩個。建議先從順序一開始,學有餘力時兼顧兩個順序。
順序一:自底向上,即,自底層原理向上層應用拓展的順序。
電腦原理的基礎知識:
為什麼每台電腦(包括手機)都有CPU、記憶體和外部設備?
(馮·諾依曼體系結構的)記憶體中為什麼既可以存儲資料,也可以存儲指令?
CPU是如何完成一次加法運算的?
程式設計語言的基礎知識:
資料類型,值,變數,作用域……
語句,流程控制語句……
過程、方法或函數,類,模組,程式,服務……
編譯系統的基本概念:
電腦程式是如何被解釋或編譯成目標代碼的?
演算法和資料結構的基礎知識:
陣列,向量,鏈表,堆,棧,二叉樹,樹和圖……
遞迴演算法,排序演算法,二叉樹搜索演算法,圖搜索演算法……
應用層的基礎知識:
為什麼電腦需要作業系統?設備驅動程式是做什麼的?
網路通信的基本原理是什麼?流覽器是怎麼找到並顯示一個網頁的?
資料庫是做什麼用的?
虛擬機器是怎麼回事?
人工智慧系統的基礎知識:
先熟悉些線性代數、概率和數學優化的基礎知識。
什麼是機器學習?從簡單的線性回歸中體會機器學習的基本概念、基本思路。
什麼是神經網路?什麼是深度神經網路?為什麼神經網路可以完成機器學習任務?
如何使用PyTorch或TensorFlow實現簡單的深度學習功能?
順序二:自頂向下,即,自頂層抽象邏輯向下層具體邏輯拓展的順序。
• 電腦的本質是什麼?
• 什麼是圖靈機?什麼是通用圖靈機?
• 什麼是讀取﹣求值﹣輸出迴圈(Read–eval–print Loop,REPL)?
如何用自頂向下的方式理解(解析、解釋、編譯)一段程式碼?
• 靜態語言和動態語言的區別?
如何理解變數與資料類型之間的綁定關係?
• 什麼是函數式程式設計?
程式設計語言中,函數的本質是什麼?
函數為什麼可以像一個值一樣被表示、存儲、傳遞和處理?
• 什麼是物件導向?
類的本質是什麼?
如何用物件導向的方式定義個功能介面?
如何依據介面實現具體功能?
• 什麼是事件驅動?
什麼是事件?事件如何分發到接收者?
如何在事件驅動的環境中理解代碼的狀態和執行順序?
【問題205】探險模式 | 如何提高程式設計水準?
在掌握基本知識體系的基礎上,學好程式設計只有一條路:多程式設計,多參加程式設計比賽,多做程式設計題,多做實驗項目,多找實習機會——其中,能參與真實專案是最有價值的。
【問題206】探險模式 | 該從哪一門程式設計語言學起?
我個人推薦的程式設計入門語言(可根據情況任選):
Python
Java
Swift
C#
JavaScript / TypeScript
Ruby
……
可能不適合入門,但適合後續深入學習的語言:
C
C++
Go
Objective-C
組合語言
機器語言(CPU指令集)
Shell Script
Lua
Haskell
OCaml
R
Julia
Erlang
MATLAB
……
【問題207】探險模式 | 如何選參考書和參考資料?
(1)強烈推薦的參考書和參考資料:
• MIT、Stanford、CMU、UC Berkeley這四所大學中任何一個電腦專業方向使用的教學參考書或參考資料。網上可以查到這些學校電腦專業方向的課程體系,有的學校甚至公開了課程視頻。其中往往會列舉參考書和參考資料連結。
• 維琪百科(英文)上的數學、電腦科學相關條目。
• Github上star數在1000以上的開原始程式碼和開來源文件。
(2)強烈推薦但須小心辨別的參考資料:
知乎上的數學、電腦科學相關條目。使用時需要格外注意三件事:
儘量只看高贊答案或高贊文章;
辨別並避開廣告軟文;
辨別並避開純抖機靈的故事或段子。
Stack Overflow上的程式設計問題解答:
自己動手實驗,辨別解答是否有效。
CSDN上的程式設計問題解答:
自己動手實驗,辨別解答是否有效。
(3)其他推薦的參考書和參考資料:
國內專業作者寫作的專業技術書籍(豆瓣評分7分以上的)。
大廠(Google、Facebook、Microsoft、Amazon、阿裡、騰訊、百度、頭條等)資深工程師的技術公號、專欄、博客等。
著名圖書系列:如O’Reilly的動物封面的系列圖書(請注意最新版本和時效性)。
國內翻譯的著名技術圖書(譯本在豆瓣評分7分以上的)。
(4)儘量避免的參考書和參考資料:
• 已經過時的圖書或參考資料。
• 作者或譯者人數比章節數還多的專業圖書。
• 百度百科上的數學或電腦科學相關資料。
什麼什麼?你這篇問答居然沒有推薦一本具體的圖書?是,沒錯。如果你覺得即便有了上面的線索,自己還是找不到好書好資料,那也許你還是適合“休閒模式”⟹請跳轉至【問題100】
「中文語音辨識github」的推薦目錄:
- 關於中文語音辨識github 在 李開復 Kai-Fu Lee Facebook 的精選貼文
- 關於中文語音辨識github 在 純靠北工程師 Facebook 的最佳解答
- 關於中文語音辨識github 在 李開復 Kai-Fu Lee Facebook 的最佳貼文
- 關於中文語音辨識github 在 [分享] openai_whisper / faster-whisper /webui - 看板AI_Art 的評價
- 關於中文語音辨識github 在 chinese-speech-recognition · GitHub Topics 的評價
- 關於中文語音辨識github 在 tai5-uan5_gian5-gi2_kang1-ku7/文件/語音辨識.md at master 的評價
- 關於中文語音辨識github 在 免費的中文語音辨識API - GitHub 的評價
- 關於中文語音辨識github 在 yeyupiaoling/PPASR: 基于PaddlePaddle实现端到端中文语音 ... 的評價
- 關於中文語音辨識github 在 GitHub - nl8590687/ASRT_SpeechRecognition 的評價
- 關於中文語音辨識github 在 這是一個Speech_Recognition-PyTorch的開源碼 - GitHub 的評價
- 關於中文語音辨識github 在 i3thuan5/tai5-uan5_gian5-gi2_kang1-ku7: 臺灣言語工具 的評價
- 關於中文語音辨識github 在 xxbb1234021/speech_recognition: 中文语音识别 - GitHub 的評價
- 關於中文語音辨識github 在 語音辨識github :: 博碩士論文下載網 的評價
- 關於中文語音辨識github 在 語音辨識github :: 博碩士論文下載網 的評價
- 關於中文語音辨識github 在 【Whisper】免費開源語音辨識自動上字幕字幕正確率比剪映還 ... 的評價
- 關於中文語音辨識github 在 2022中文語音辨識github-遊戲熱門攻略下載,精選在PTT/巴哈 ... 的評價
- 關於中文語音辨識github 在 2022中文語音辨識github-遊戲熱門攻略下載,精選在PTT/巴哈 ... 的評價
- 關於中文語音辨識github 在 查詢相關照片: 中文語音辨識github - 台灣好玩景點推薦 的評價
- 關於中文語音辨識github 在 請問一個語音辨識的問題,我用python - Facebook 的評價
- 關於中文語音辨識github 在 GitHub推出Copilot X 加入GPT-4功能開發者可直接語音編程 的評價
- 關於中文語音辨識github 在 【Google Colab Python系列】 初探Whisper: 來一段Youtube ... 的評價
- 關於中文語音辨識github 在 動手學GitHub!現代人不能不知道的協同合作平台 - 天瓏 的評價
- 關於中文語音辨識github 在 實戰ROS機器人自作|使用Raspberry Pi (電子書) 的評價
- 關於中文語音辨識github 在 開發者傳授PyTorch秘笈 - 第 13-41 頁 - Google 圖書結果 的評價
- 關於中文語音辨識github 在 Kinect體感程式設計入門與應用-第二版 (電子書) 的評價
- 關於中文語音辨識github 在 超越多顯卡多機器:分散式機器學習超速實戰 - 第 7-1 頁 - Google 圖書結果 的評價
- 關於中文語音辨識github 在 openvanilla/openvanilla · GitHub - betago.com 的評價
- 關於中文語音辨識github 在 ESP32物聯網專題製作實戰寶典(電子書) - 第 352 頁 - Google 圖書結果 的評價
- 關於中文語音辨識github 在 來一段Youtube影片進行語音辨識吧! - Potato Media 的評價
- 關於中文語音辨識github 在 Google 傑出科學家紀懷新談Bard 發展,盼藉用戶與審查員反饋 ... 的評價
中文語音辨識github 在 純靠北工程師 Facebook 的最佳解答
#純靠北工程師2z1
面試奇談之雞八考題
最近面試一家醫生開的做AI的語音辨識的新創公司:
女面:請問你做語音辦識是用什麼做的?告訴我流程
偶:偶都用googleAPI做二次開發呀~
女面:我是問你,流程怎麼做啊...程式怎麼寫啊...
偶:google 上都有例子啊..
面: 不是阿,我是問你,我講一句中文google能將它翻成英文嗎?
你可以告訴我google怎麼寫的嗎?
偶:偶不客氣的對面試的那估女的說今日面試結束。
心裡OS:塞玲羊,草枝掰,我自己寫還要給你面試嗎?
是要像林X營一樣要喝牛奶就要為你養一頭牛,還是要吃池上便當就要自己去種田?(圖面來源美人魚)
👉 去 GitHub 給我們🌟用行動支持純靠北工程師 https://github.com/init-engineer/init.engineer
📢 匿名發文請至 https://kaobei.engineer/cards/create
🥙 全平台留言 https://kaobei.engineer/cards/show/3853
中文語音辨識github 在 李開復 Kai-Fu Lee Facebook 的最佳貼文
ZAO了一天,隱私的雷快爆了
本文來自科技媒體36氪
……………………………………………………
從爆火刷屏到成為風暴中心,AI換臉App“ZAO”只用了短短一天。
上一個引起如此轟動的現象級App是捏臉軟件Zepeto,但Zepeto起碼還流行了一星期左右才逐漸從朋友圈銷聲匿跡。ZAO還沒來得及享受太久榮光,就猝不及防地陷入隱私之爭。
問題還是出在這張臉上。想要跟上潮流玩換臉遊戲,你必須同意ZAO預設的使用者協議,即“同意或者確保肖像權利人同意授予‘ZAO'及其關聯公司全球範圍內完全免費、不可撤銷、永久、可轉授權和可再許可的權利。” 是的,這基本意味著你一旦上傳自己的換臉視頻之後,就無法再刪除裡面的照片,哪怕刪除應用也不行。
ZAO的走紅其實並不令人意外,它身上聚集了太多爆款特質:內容來自熱門影視作品,讓人想起那些年玩過的“小咖秀”;跟明星換臉,滿足了大家展現自我,順帶借著電影妝發沉溺于自己盛世美顏的需求;與朋友一起表演、與偶像同台,融入社交功能、追星元素,撩撥著大家的興奮感與傳播欲望。
令人意外的是輿論反噬之快,經過互聯網大佬關於中國用戶樂意以隱私換便利言論的洗禮,蘋果、穀歌、亞馬遜相繼承認監聽用戶談話的風波,一直被忽視的互聯網隱私終於被慢慢地重視起來。
▌ZAO爆紅背後
嗅覺敏感的VC們已經停止打聽ZAO背後的團隊到底是哪家,畢竟它與上市公司陌陌之間的關係已經通過各種工商資料展示得明明白白:ZAO所屬的長沙深度融合網路科技有限公司,為海南喵咖網路的全資子公司。而海南喵咖網路的實際控制人則是兩位陌陌聯合創始人,王力、雷小亮。
雖然VC投資團隊無望,創業公司對ZAO的“借鑒”可不會停止。正如Zepeto之後冒出的一堆捏臉軟件,不難猜想,未來的幾個月裡,各大應用商店即將湧進一大批換臉軟件。
ZAO跟陌陌的關係,不止是股權關係那麼簡單。據36氪瞭解,這個項目由陌陌CEO唐岩主導,2019年春節後立項,歸屬於陌陌企業發展部,這個部門主攻開發獨立App,赫茲、meet相冊均為該部門的成果。與之相對的是陌陌創新業務部,主要負責陌陌主App內的創新嘗試。
在移動互聯網紅利消失的大背景下,做App矩陣已經是各家平臺公司的發展共識,字节跳動是將這一戰略踐行得最為成功的一家。陌陌同樣也早就開始了App矩陣的戰略,只是此前發佈的一系列獨立App,包括Doki、哈你、Cue在內都不算成功。直到ZAO出現,才算引爆關注。
一位陌陌內部人士告訴36氪,ZAO的演算法由陌陌深度學習實驗室支持,這個實驗室之前曾負責過PULAPULA"2🐶18汪年全家福“的技術支援。
跟捏個自己的虛擬替身不同,ZAO把“展現理想中的自己”這件事變著法子更往前推進一步。 只需上傳自己的照片,便可將李現、黃曉明、甄嬛、雪姨的臉替換成自己的,還可以與朋友共同出演《武林外傳》《致青春》等影視作品中的名場面。比起卡通替身,ZAO的場面毫無疑問顯得更真實了。
AI換臉技術,不算是新鮮事兒,Pornhub、Reddit的用戶大概早就見識過。2017年12月,用戶“DeepFakes”在Reddit上發佈一個“假視頻”,將成人電影中演員的臉替換成斯嘉麗·詹森、蓋爾·加朵等知名女星的臉,畫面以假亂真。這為AI換臉技術吸引來了一大波流量,“deepfakes”也逐漸成為這一技術的代稱,同名演算法也在GitHub開源。
ZAO的特別之處在於,通過大公司的支持,將這一技術的門檻和體驗大大降低。使用者不需要研究如何渲染如何訓練AI,只需動動手指上傳照片,再花5s-10s等著視頻生成,然後再分享到自己的朋友圈就好。
ZAO的第一個版本在5月29日發佈並進行小範圍內測,8月30日發佈1.1正式版本。這一版本取消了名額限制,對所有人開放,只需手機號就能夠註冊並使用,大大降低准入門檻。第二天,ZAO便從App Store免費應用總榜的第138位強勢沖到了第2位,並迅速搶佔娛樂類app的首位。
▌AI to C,大廠的遊戲
用戶體驗背後,是高昂的技術成本。因為同時段湧進大量的使用者,ZAO的伺服器幾度宕機,但之後很快就修復了。比起伺服器,看不見的成本還有背後的算力。為了讓換臉的過程不超過10s,意味著背後需要投入大量GPU。
有AI從業者告訴36氪,就算是美顏類App,一個高級的手繪濾鏡所需要的成本也是百萬元起步,這其中包括了用大量手繪圖作為訓練素材,據此推算,ZAO的成本應該更高。
在新浪微博上,一位名為“ZAO官方助手”的用戶在8月30日22:54分,即ZAO上線第一天發了一條微博,”這個月花700萬租的伺服器,今晚已經消耗1/3了。明天如果繼續火爆,我們只能做嚴格一些的限制。”
雖然沒有加V認證,在此之前,這位元使用者發的內容都是關於ZAO的內測名額發放。
用AI技術做C端的產品,毫無疑問將是未來大公司的戰略方向之一。也只有大公司,才能夠為了大量C端使用者的體驗負荷起高昂的成本。
只做個C端談資類的App,肯定不是陌陌為此加大投入的原因。目前從ZAO的產品設計來看,可以看出它想讓用戶盡可能多地拉好友來玩,以達成傳播效果。ZAO的社交功能依託於微信和QQ,只能通過微信和QQ發送申請添加好友。成為好友後,你們互相獲得了對方形象的使用權,可以用好友的臉來製作視頻。在聊天介面,使用者可以發送替換成自己面孔的gif表情包,連鬥圖也是私人訂制。
只要能沉澱下社交流量,下一步就是方向的探索。36氪獲悉,ZAO未來的一個潛在方向加上語音辨識功能,目前ZAO使用的是科大訊飛的技術。
ZAO面臨的另一重挑戰是,如何避免爆款APP難以逃避的“月拋”命運。
2018年12月初,Zepeto爆紅。一個月後,2019年1月12日,其中文版“崽崽”在蘋果App Store上線。但此後再無大的水花,不溫不火,在社交類APP的20-30名附近徘徊。
新鮮感過後,Zepeto沒能抓住多少用戶。沒有社交關係鏈,用戶毫無壓力地拋棄了它,等待下一個爆款。
與Zepeto相比,ZAO的社交屬性明顯更強,並且是一款熟人社交軟體:依託於最大的社交軟體微信和QQ,用戶可以順暢地導入社交關係;由於添加好友也意味著共用面孔資訊,在添加好友時,ZAO還會彈出“好友面孔使用協定”:“添加好友後,你可以使用對方的面孔資訊進行換臉娛樂玩法,同時作為對等交換,對方也能使用你的面孔。請跟你真正親近的朋友進行授權。”
更強的社交屬性能否讓ZAO逃脫非剛需類App曇花一現的命運,目前還難下定論。但確定的是,陌陌終於有它的第二個App爆款了。
▌隱私、版權爭議,ZAO的難題
在解決商業模式問題之前,ZAO亟需解決的是公眾對於隱私權的質疑。
在人臉識別被用於電子支付、身份認證的今天,臉甚至變得比金錢、身份證都更為重要。換做五年前,人們也許不會對在網路上上傳自己的照片並且不可刪除如此警惕,但現在,上傳一張正臉照片,而且無濾鏡無PS,任何人都得掂量一下因此導致的風險。
大概是為了後續用UGC素材做更多的開發,ZAO的使用者協議稱得上霸道和嚴苛。同時,為了避免用戶的臉被用在非法用途,ZAO採取的辦法是,不允許使用者上傳自己的視頻,只能在影視片段中截取換臉的素材。因為影視片段脫離了現實生活場景,不法分子用截圖進行欺詐等風險理論上也會隨之降低。 另外,ZAO也承諾,“ZAO及其關聯公司將盡最大努力在合理範圍內使用上述內容,且您的必要授權不代表ZAO及其關聯公司對上述資訊內容的必然使用;也不改變上述資訊內容的所有權及其智慧財產權歸屬,更不影響您對上述內容資訊任何合法使用。”
但互聯網公司——事實上幾乎所有商業機構,對“合理範圍”這一概念的界定總是不可避免地會與用戶的界定產生分歧。在更改使用者使用協定之前,ZAO引發的這場隱私權風波,也許聲勢將不低於產品本身引發的刷屏效應。
“目前,網上各類換臉軟件有很多,但不管換得有多逼真,都是無法突破刷臉支付的。”8月31日中午,螞蟻金服官方回復21世紀經濟報導記者稱。因為“刷臉支付”採用的是3D人臉識別技術,會通過軟硬體結合的方式進行檢測,來判斷採集到的人臉是否是照片、視頻或者軟體類比生成的,能有效地避免各種人臉偽造帶來的身份冒用情況。
不知道螞蟻金服給的這顆技術向定心丸,能否讓惴惴不安的用戶稍微安心。
ZAO要繼續往下走,另一重難度在於對素材的使用。
點進ZAO的素材使用頁,在版權聲明中,ZAO寫道:“短視頻和表情素材,除了特別聲明是ZAO跟合作方進行版權合作的之外,均來自于用戶自發的上傳,ZAO不享有素材的商業版權。”
2018年3月,原國家新聞出版廣電總局下發的《關於進一步規範網路視聽節目傳播秩序的通知》規定:“堅決禁止非法抓取、剪拼改編視聽節目的行為,並嚴格管理包括線民上傳的類似重編節目,不給存在版權問題、內容問題等的剪拼改編視聽節目提供傳播管道。”谷阿莫等一大批影評帳號就曾因此身陷版權糾紛。
與谷阿莫不同,ZAO在版權聲明中指出,平臺並不享有商業版權。36氪分別在上午和下午試用ZAO,還發現包括關曉彤的某個綜藝表演片段在內,已經顯示“此素材已不可用”。
然而,非商用就不涉及版權糾紛嗎?北京商報曾就此谷阿莫版權糾紛採訪中聞律師事務所合夥人趙虎,趙虎稱,是否商用並不是判定侵權的標準,業餘愛好者製作的視頻也可能會侵權。“在原作的基礎上進行二次創作,應該得到原作著作權人的許可,如果未經許可就使用了原作內容,就非常有可能構成侵權。”
ZAO可以對影視片段進行換臉,也可以對表情包進行換臉。而表情包除了著作權外,需要注意的還有肖像權、名譽權。
在“造表情”分區,除了還珠格格、武林外傳外,36氪還發現了網路紅人李雪琴的表情包,而在36氪與李雪琴取得聯繫之後,對方表示,此前並未有人與她溝通過肖像權問題。
“將任何普通自然人肖像製成表情包進行傳播均可能侵犯肖像權。”北京互聯網法院法官朱閣、法官李珂曾撰文表示。但互聯網上資訊浩如煙海,傳播也較為隱蔽,許多時候侵權行為難以發現,侵權主體也難以確認。
“但不維權、維權少並不代表其人格權不受法律保護。此外,真人表情包著作權人行使權利需嚴格依照其與肖像權人的約定,未經肖像權人同意,該表情包不得發表、傳播或銷售。”文章中稱。
在使用者協議中,ZAO似乎也在有意規避這些糾紛:“如果您把使用者內容中的人臉換成您或其他人的臉,您同意或確保肖像權利人授予‘ZAO’及其關聯公司全球範圍內完全免費、不可撤銷、永久、可轉授權和可再許可的權利。包括但不限於:人臉照片、圖片、視頻資料等肖像資料中所含的您或肖像權利人的肖像權,以及利用技術對您或肖像權利人的肖像進行形式改動。”
而Snapchat等可以製作人臉特效的軟體從未對肖像權提出如此嚴苛的要求,只是在隱私條款中提及:“我方的許多服務都要求我方收集您設備相機和照片上的圖像與其他資訊”,“我方收集您在我方服務商創建的內容”。
必須說明的一點是,因為網路上的肖像權、隱私權長期處於模糊地帶,有隱私權和肖像權隱患的App遠遠不止ZAO一家。但就因為ZAO的刷屏,這些問題才在一夜之間像冰山一樣浮現在大家面前。
一想到這些令人頭疼的問題,無論是跟陳冠希勾肩搭背演《無間道》,還是跟張曼玉對手演《青蛇》,似乎快樂都已經沒那麼純粹了。
https://36kr.com/p/5241673
中文語音辨識github 在 chinese-speech-recognition · GitHub Topics 的推薦與評價
Automatic Speech Recognition(ASR), Text-To-Speech(TTS) engine for Chinese. 中文语音识别、文字转语音,基于语音库实现,易扩展。 tts speech-recognition parrot ... ... <看更多>
中文語音辨識github 在 tai5-uan5_gian5-gi2_kang1-ku7/文件/語音辨識.md at master 的推薦與評價
語音辨識 (Speech Recognition). 語音辨識就是共語音轉做文字, 會當用佇語音指令佮問答系統(親像蘋果公司的Siri)。 這方面的開源工具有 Kaldi 佮 HTK ... ... <看更多>
中文語音辨識github 在 [分享] openai_whisper / faster-whisper /webui - 看板AI_Art 的推薦與評價
whisper這是openai公開的語音辨識模型
非常強大相信不少人已經聽過或使用過了
沒聽過也沒關係這邊做個使用介紹
這裡主要要介紹的是
whisper與faster-whisper
還有whisper-webui(網頁版本)
openai/whisper
https://github.com/openai/whisper
guillaumekln/faster-whisper
https://github.com/guillaumekln/faster-whisper
aadnk/whisper-webui
https://huggingface.co/spaces/aadnk/whisper-webui
___________________________
一. whisper
OpenAI相信大家都知道
他是開發ChatGPT的組織
除了GPT外也有推出其他公開的模型
whisper是在2022年9月首次發佈的
是一種通用的語音辨識模型
目前提供六種級距的模型(視GPU等級選擇)
越大的模型效果越好但也較耗資源
large-v2模型是在2022年底才推出的
參數與原本的large模型一樣
但是效果更好了,詳細可參考底下討論說明
https://github.com/openai/whisper/discussions/661
下圖是whisper以large-v2模型
驗證的單詞錯誤率(Word Error Rate)
越上面的語言錯誤率越低
我自己常使用英文、日文、中文
辨識的都還不錯
在github上面還有介紹Python呼叫使用方式
有興趣的可以看看,這裡就先略過了
___________________________
二. faster-whisper
guillaumekln使用CTranslate2重新實作出OpenAI的Whisper模型
github上說明同精度下速度比openai/whisper 快 4 倍,
並且使用更少的記憶體,在CPU和GPU上使用8-bit量化可以進一步提高效率。
這使得large-v2模型在低VRAM上也能使用
在github上面也有介紹Python呼叫使用方式
有興趣的可以看看,這裡同樣略過
___________________________
三. whisper-webui
再來是讓所有人都能輕易使用的webui介面版本
這是aadnk在2022年10月於whisper的discussions中
發文說明製作了whisper的WebUI版本
支援使用VAD 加強英語以外的語言
而且最厲害的是還整合了yt-dlp套件
支援貼上youtube連結自動語音辨識
我測試時發現nicovideo也支援(不過載入的很慢)
Whisper WebUI with a VAD for more accurate non-English transcripts (Japanese)
帶有 VAD 的 Whisper WebUI 可獲取更準確的非英語成績單(日語)#397
https://github.com/openai/whisper/discussions/397
作者也有在Hugging Face中公開直接可以使用的版本
有兩種,原版whisper-webui與faster-whisper-webui
https://huggingface.co/spaces/aadnk/whisper-webui
https://huggingface.co/spaces/aadnk/faster-whisper-webui
因為huggingface免費版本是用CPU跑的
所以作者有限制影片長度
原版whisper僅能10分鐘(600s)
faster-whisper放寬至30分鐘(1800s)
若是在自己電腦上跑就能設置不限長度
啟動app.py時要加上[--input_audio_max_duration -1]
下圖是webui執行時的畫面
有沒有發現與stable-diffusion-webui風格很相似呢?
因為webui其實是python的公開套件gradio
很多AI模型都可以搭配gradio來製作出易於使用的版本
作者也有製作Win10/11的whisper-webui安裝步驟
https://reurl.cc/DAL32E
___________________________
四. 安裝步驟說明
底下是我自己安裝webui時
紀錄的粗略步驟
推薦使用faster-whisper-webui
另外我只知道N卡的安裝方式...
1. CUDA Toolkit 12.2
CUDA Toolkit 12.2
Download Installer for Windows 10 x86_64
https://developer.nvidia.com/cuda-downloads
這是N卡的CUDA開發套件,不少模型都會需要用到這個
如果系統已經有安裝了,可以略過
2. git clone faster-whisper-webui & 建立python虛擬環境
要先安裝git版本控管工具
然後找個你喜好的位置安裝 faster-whisper-webui
用git相關工具或cmd命令提示字元都可以
git clone "https://huggingface.co/spaces/aadnk/faster-whisper-webui"
PS.
檢視程式後會發現whisper-webui與faster-whisper-webui都一致
主要差別在於requirements.txt需求套件不同
能在執行app.py時,使用[--whisper_implementation]來決定whisper實作方式
--whisper_implementation faster-whisper
另外也都有附上兩種版本的套件相依管理檔案
requirements-whisper.txt
requirements-fasterWhisper.txt
3. 建立python虛擬環境
先安裝Python 3.10.12
(或是系統已有安裝的直接使用)
python從3.4版本開始支援建立虛擬環境
好處是每個專案之間不會版本干擾
壞處是每個專案檔案都超大
這邊為whisper建立venv的虛擬環境
cd path\faster-whisper-webui\
python -m venv venv
venv\Scripts\activate
執行activate後,才會進入虛擬環境,前面會加上venv名稱(如下)
(venv) path\faster-whisper-webui>
4. 安裝pytorch
在windows上主要有兩種安裝方式: Conda與pip
我習慣使用pip,這個安裝完python後就有
Conda除了python外還要再安裝Conda管理系統
如果是使用Conda,前一步驟就會在Conda中做掉
這邊僅說明pip方式,我選擇安裝CUDA 11.8
pip3 install torch torchvision torchaudio --index-url
https://download.pytorch.org/whl/cu118
5. 用pip 安裝fasterWhisper 需要的套件
pip install -r requirements.txt
6. 執行app.py
在cmd命令提示字元中
cd path\faster-whisper-webui\
set COMMANDLINE_ARGS=
--whisper_implementation faster-whisper --input_audio_max_duration -1
python app.py %COMMANDLINE_ARGS%
上面[COMMANDLINE_ARGS=]後面不能斷行,這邊因為太長了才斷行顯示
7. 自製修改版本
其實我自己也有從aadnk作者
那邊fork一份做了些修改
*首先我加入了webui.bat
這是參考stable-diffusion-webui的程式修改的
我只要執行webui.bat就能啟動app.py了
*Chinese自動繁體中文
whisper的一個缺點就是辨識的中文幾乎是簡體的
要使用prompt提示他要使用繁體中文
如果每次使用都要手動調整也是很煩人
我就加入了判斷,選擇Chinese時
自動將initial_prompt 加上 "繁體: "
* 變更yt-dlp的youtube預設下載格式
原版本輸入youtube影片連結時
僅會下載聲音檔案【bestaudio】
我修改為【bestvideo[ext=mp4]+bestaudio[ext=m4a]】
這樣就會下載完整影片檔案
*再來是我加入了一些新arguments:
--vad_max_merge_size:
啟動時可以自動帶入自訂的Max Merge Size (s).
--language:
啟動時可以自動帶入自訂的語言
--save_downloaded_files:
原版本貼上的影片url,在辨識完畢後,會自動移除,
加上這個後會將影片移動至指定的輸出位置(--output_dir XXX)
--merge_subtitle_with_sources:
設定這個後,在影片語音辨識完成後,會將產生的字幕srt檔案
使用ffmpeg自動與影片檔案合併,並且移動至指定的輸出位置(--output_dir XXX)
設置後會取代save_downloaded_files功能
--autolaunch:
這個就是執行後,會自動在瀏覽器開啟[https://127.0.0.1:7860/]
avans06/whisper-webui
https://huggingface.co/spaces/avans06/whisper-webui
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.71.20.228 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1689866228.A.CBA.html
因為我僅有聽日文小說的需求
前陣子我有在huggingface搜尋後
找到RinneVoiceSet聲音模型
這個是使用COEIROINK-GPU這個軟體來發音的
不過因為只能說日文
用途非常有限呢
COEIROINK-GPU
https://coeiroink.com/download
RinneAi/RinneVoiceSet
https://huggingface.co/RinneAi/RinneVoiceSet
※ 編輯: avans (111.71.20.228 臺灣), 07/21/2023 00:52:17
還有一個比較新的
支援多國語系的tts
雖然我沒用過
youtube上有不少介紹
也可參考看看
https://github.com/suno-ai/bark
https://huggingface.co/spaces/suno/bark
※ 編輯: avans (111.71.20.228 臺灣), 07/21/2023 01:06:24
... <看更多>