午夜性色福利在线视频福利|欧美v日韩v亚洲v最新在线|日韩女同在线二区三区|在线免费看片a欧美

      <td id="ivdo3"><tr id="ivdo3"></tr></td>
      <track id="ivdo3"><tbody id="ivdo3"><noframes id="ivdo3"></noframes></tbody></track>

    • 
      
      <center id="ivdo3"></center>

      當前位置:區(qū)塊鏈 >區(qū)塊鏈 > Sora帶來的四點啟發(fā)

      Sora帶來的四點啟發(fā)

      更新時間:2024-02-19 10:25:50 | 作者:佚名
      文章來源:硅基立場 作者:王兆洋 圖片來源:由無界AI生成 Sora的發(fā)布是一件大事,大到開始出現(xiàn)人傳人的“出來見上帝”現(xiàn)象,而到底為何大卻無人關(guān)心。觀察各種討論后還是覺得有些重要的東西沒有說透,把很多信息和思考串起來總結(jié)成了四條“啟發(fā)”,提前劇透,以下這里沒有見上帝部分。 1.視覺數(shù)據(jù)能訓練出更強的泛化能力? ChatGPT標志著語言模型完成了“涌現(xiàn)...

      文章來源:硅基立場

      作者:王兆洋

      圖片來源:由無界AI生成


      Sora的發(fā)布是一件大事,大到開始出現(xiàn)人傳人的“出來見上帝”現(xiàn)象,而到底為何大卻無人關(guān)心。觀察各種討論后還是覺得有些重要的東西沒有說透,把很多信息和思考串起來總結(jié)成了四條“啟發(fā)”,提前劇透,以下這里沒有見上帝部分。

      1. 視覺數(shù)據(jù)能訓練出更強的泛化能力?

      ChatGPT標志著語言模型完成了“涌現(xiàn)”擁有了泛化能力。之后我一直很好奇不同模態(tài)的訓練數(shù)據(jù)混合的效果,以及誰才是泛化能力誕生過程里決定性的那一個。

      在去年前半年我遇到每個做圖像或視頻生成模型的人都會問他一個問題:語言模型模塊在圖像或視頻模型里到底有多關(guān)鍵?后來Dalle3似乎回答了這個問題,它的能力突破被廣泛認為來自GPT提供的語言模型板塊的強大能力。

      去年底我的這個保留問題變成了:如果用了正確的方法,只用圖像或者視頻數(shù)據(jù)訓練出來的模型,泛化能力會是怎樣?

      這個好奇來自兩個判斷,一個是視頻數(shù)據(jù)是“全互聯(lián)網(wǎng)的文字數(shù)據(jù)都被用完了”之后的下一個增量;另一個,是視頻數(shù)據(jù)被廣泛認為信息密度不如文字因此它與智慧的關(guān)系也不如文字,但我認為它包含的是另一種抽象維度的信息,比如時空關(guān)系和物理規(guī)律等,這些都因為數(shù)據(jù)“非格式化”而未被“開發(fā)”,但它潛力巨大。在我有限的翻閱論文的經(jīng)驗里,有一篇關(guān)于多模態(tài)領(lǐng)域重要的模型VLMO的論文里,曾提到一個有意思的實驗結(jié)論:當你完全拿一個在視覺數(shù)據(jù)上訓練好的模型,可以直接對文本數(shù)據(jù)建模,甚至不需要微調(diào)就可以有很強的文本生成能力。但反過來用語言訓練在視覺上生成,則差很多。后來去年MJ6V的一個重要功能提升也是文字生成,它用擴散模型的思路帶來了語言能力,這都讓我更加好奇。

      而這一次Sora某種程度就是在回答這個問題:它把視頻數(shù)據(jù)統(tǒng)一了,然后用大語言模型的方法理解視頻,最后產(chǎn)生了對物理世界的“涌現(xiàn)”也就是泛化能力。這種能力是語言模型無法得到的。

      這是很重要的一個信息。這可能不只是對理解AI有幫助,對理解我們作為人的一些智能也有幫助。

      另外再提一個很有意思的細節(jié),Sora這個模型的名字取自一個日語單詞,Sora在日語是天空的意思。而這個詞在日語里有時候會用作動詞,意思是“用心記,而不用看任何寫下來的材料”,變化出來的詞比如“Soranjiru”, そらんじる 的意思就是“remember by heart”。

      這不就是Sora的能力。

      2. 現(xiàn)在OpenAI只剩下一條路線:Scaling Law。

      從Sora可以確定的信息來看,它的成功靠的是在所有人認為已經(jīng)證明不可能的情況下,用數(shù)據(jù)精確處理后的大規(guī)模預(yù)訓練硬生生帶來了涌現(xiàn)——熟悉么,對,就是ChatGPT的又一次重演。

      而這也是OpenAI的Scaling law的又一次成功。而過去很長一段時間很多人開始質(zhì)疑scaling law。比如在過去幾個月跟業(yè)界一線從業(yè)者交流中,大家?guī)缀跄JGPT4就是一個MOE(專家模型,由一群不同模型組成的大模型),而這被解讀為單一模型能力撞墻,暗含著OpenAI堅持的scaling law的破產(chǎn)。但現(xiàn)在看,可能并非如此。在Sora的技術(shù)報告里有一句很有意思的話:Our largest model, Sora, is capable of generating a minute of high fidelity video. Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.

      “最大模型”。這句話有些故意含糊,是OpenAI最大的模型?比GPT5還大?還是這個系列最大的模型?最大的大又指的是什么大?

      總之,大力出奇跡仍在繼續(xù)。

      OpenAI 的Scaling law原本是它的研究中得出的一個學術(shù)結(jié)論,它來自Ilya 和Karpathy等OpenAI的頂尖科學家們,但它正在快速變成一種路線,充滿Altman意志的路線,變成這家公司的核心戰(zhàn)略。Altman和科學家們的關(guān)系也呈現(xiàn)一種智術(shù)師與統(tǒng)治者的關(guān)系,思想體系誕生于前者,但最終為被后者按照個人意志改造。

      不知所蹤的Ilya和剛剛離職的Karpathy,作為OpenAI曾經(jīng)最有代表的科學家都強調(diào)過scale的重要,但前者很快開始警惕無限擴張過程里的失控危險,于是開始超級對齊項目,而這個項目在OpenAI拿不到足夠算力資源也被認為是宮斗爆發(fā)的導火索之一。Karpathy 則是從科研角度想弄清楚scale和算法的關(guān)系,提出“Algorithmic progress was necessity, now bonus”。而這句話帶來的一統(tǒng)天下的前景,顯然在“野心家”眼里會超過一切。

      所以,今天如果把Scaling law視作這家公司的唯一路線,Altman最近的很多動作也就更好理解:

      在競爭上,7萬億的傳言,就是比別人更早scale到一個臨界點,并且讓其他人沒卡可以用來scale,讓自己的規(guī)模沖到極致從而讓別人無路可走。在研究上,不再給學術(shù)界的研究足夠的credit,也不認為有必要給。前者聚攏來的資源遠超提出一些研究方法的學界,于是任何人的研究,都能變成他的成果——學術(shù)界造出來的,OpenAI全吞掉。

      今天可以看到,每次OpenAI的新東西出來,都會有人出來“維權(quán)”原創(chuàng),從Q*到今天sora背后的patch,推特上一名支持開源的學者說到:今天已經(jīng)沒有任何一條學術(shù)規(guī)范沒有被OpenAI無視過。

      而且這些都是Altman的“哲學”之一。幾天前我刷到奧特曼的一條推特:

      you have a right to your actions,

      but never to your actions' fruits.

      當時還在想這是什么意思,緊接著Sora來了,Karpathy走了。我們也明白了。

      Ilya和Karpathy兩個在堅持閉源的決心上遠沒有Altman堅定,對開源一直比較曖昧的人,最終成了這一切的注腳。

      這一切是不是也讓你感到很熟悉?Scaling law正在被Altman演化成OpenAI版的moving fast and break everything 。也許這也是今天逼出了一個最強扎克伯格的原因。這也再次說明Altman和扎克伯格可能才是同一類人。

      3. 這只是我們和AGI的第一次親密接觸,一切仍在中間態(tài)。

      這幾天人們拿各種文生視頻產(chǎn)品和Sora對比,發(fā)現(xiàn)它全面碾壓,而非各有所長。這其實反而更說明它是視覺模型本身的ChatGPT時刻,第一次證明這條路線可行,并讓人們看到未來雛形。

      不過,Sora在生成視頻的意義之外,還在于語言模型突破后又迎來視頻和物理世界虛擬生成的突破,所以更大的意義是向著AGI前進的一個里程碑。

      GPT4出現(xiàn)后,微軟當初那篇全面評測的論文,取名通用人工智能的火花,它的團隊原本起的標題叫做:與通用人工智能的第一次接觸。而從邁向更通用的智能的意義來看,Sora更適合這個標題。

      它預(yù)示著新拼圖會繼續(xù)不斷出現(xiàn),也意味著一切都還沒到“徹底變天”,反而今天的一切都只是中間態(tài)。

      Sora對Dalle3的沖擊已經(jīng)很容易想到,而被Sora強行搶了頭條的Gemini不僅明確用了MOE,而且第一次達到100萬上下文長度——這已經(jīng)不是對語言模型的突破,當你可以有100萬上下文,你可以放進更多模態(tài)的數(shù)據(jù),所以這樣看它是和Sora有直接競爭關(guān)系的,為什么要選在Gemini 1.5后幾小時急著用一個“PPT”發(fā)布Sora,可能也更好理解了,OpenAI比誰都明白,有了上下文長度就有了一切,不管你叫什么模態(tài)的模型。

      這一切都指向今天還被認為是最強大的GPT——它也只是個中間態(tài)。一切都還有機會。

      4. 不必妄自菲薄

      說實話,從OpenAI去年宮斗鬧劇到今天的Sora發(fā)布,圍繞它們的刷屏讓我非常羨慕,多希望有我們自己的企業(yè)和產(chǎn)品和明星人物也能獲得如此高度討論。

      其實從宮斗的處理,到今天Sora發(fā)布,OpenAI的每一次重要的動作和發(fā)布,都配合著一場場精巧設(shè)計的敘事和campaign,它的設(shè)置議題的能力,節(jié)奏控制,公眾引導熟練自如。哪怕你只想喊兩句“中美差距拉大”吃一吃情緒饅頭,也至少該知道這一切。

      OpenAI是在gpt4已經(jīng)訓練出來后,才決定發(fā)布基于Gpt3.5的ChatGPT,Altman在去了國會聽證并高聲呼吁要減速AI的發(fā)展、政府多多監(jiān)管后,轉(zhuǎn)頭幾天就按下按鈕發(fā)布了ChatGPT 的app,Anthropic 拿到亞馬遜的最重要一筆融資后發(fā)現(xiàn)OpenAI給ChatGPT做了第一次大更新,上線了語音和圖像功能,以及這一次還沒ready的Sora硬搶谷歌 Gemini 的頭條,Altman掌控下的OpenAI在議程設(shè)置上幾乎登峰造極。

      此外,OpenAI的每個人幾乎都是一個品牌,都是一個推特上的AI界馬斯克。一次發(fā)布,團隊就多幾個明星人物,成為以后媒體們選題的天然來源。

      而且這種同樣的模式已經(jīng)越來越明顯的在硅谷AI創(chuàng)業(yè)公司蔓延開來,比如號稱要干掉Google的perplexity的印度CEO,比如從傳統(tǒng)瀏覽器變成“要再造一個互聯(lián)網(wǎng)那么大的平臺”的Arc瀏覽器。而這背后與AI行業(yè)發(fā)展急需的資源,人才,注意力,市場競爭等直接掛鉤。

      中國的同行們似乎已失去了這個能力。努力追趕是必須的,但作為一個天天和一線創(chuàng)業(yè)者打交道的人,我開始感覺我們對自己嚴苛到妄自菲薄的事實也在起著反作用。

      我們不缺同樣帶來極佳體驗的AI模型和產(chǎn)品,也不缺技術(shù)社區(qū)影響力極佳的個體和作品,但卻沒有在我們自己的討論里形成該有的關(guān)注。也許所有人該放開一些包袱了。

      OpenAI不是transformer發(fā)明者,Stable Diffusion不是diffusion 發(fā)明者,Mistral不是MOE發(fā)明者,其實如果對標,它們本質(zhì)都可以理解是一個個ASML,所以“我們?yōu)槭裁礇]有誕生OpenAI”是不是并不等于“我們?yōu)槭裁礇]從頭發(fā)明某某技術(shù)”?對原創(chuàng)技術(shù)的理解和定義是不是在我們妄自菲薄的過程里被擴大化了,是不是哪怕一家像ASML這樣的“只做沙子的搬運工”的公司今天誕生在中國也躲不過先被罵套殼的命運?

      有時候,問題提錯了可能一切就都錯了。

      本站提醒:投資有風險,入市須謹慎,本內(nèi)容不作為投資理財建議。