“Anthropic Claude2.1已經(jīng)把幻覺(jué)發(fā)生幾率降低了50%,但從實(shí)現(xiàn)原理上,模型設(shè)計(jì)就是為了生成,一定會(huì)胡說(shuō)八道。”
“幻覺(jué)不是一個(gè)孤立問(wèn)題,它不光跟模型結(jié)構(gòu)有關(guān),還跟數(shù)據(jù)、訓(xùn)練方式有關(guān)。當(dāng)所有因素綜合在一起,才能有效緩解幻覺(jué)問(wèn)題。不過(guò)我覺(jué)得幻覺(jué)很難說(shuō)根本性解決掉,它畢竟到現(xiàn)在位置屬于概率模型?!?br>“可以通過(guò)有效的Prompt來(lái)減少幻覺(jué),Prompt來(lái)自用戶(hù)有時(shí)會(huì)存在誤導(dǎo)或惡意,就需要在應(yīng)用層面提供語(yǔ)意理解和改寫(xiě)。也可以制定相應(yīng)安全機(jī)制,將惡意誘導(dǎo)排除在外?!?br>“現(xiàn)在市面上有了檢索增強(qiáng)RAG,微調(diào)Finetune,以及控制輸出和輸入的工具,都是在減少幻覺(jué)。服務(wù)商做這件事情,也需要長(zhǎng)期的AI工程化經(jīng)驗(yàn)。”
原文來(lái)源:鈦媒體APP
作者 | 楊麗
圖片來(lái)源:由無(wú)界 AI?生成
最近一段時(shí)間,鈦媒體與大量AI從業(yè)者溝通中發(fā)現(xiàn):大模型幻覺(jué),已經(jīng)成為阻礙企業(yè)應(yīng)用的嚴(yán)重缺陷性問(wèn)題,這也導(dǎo)致大模型在實(shí)際應(yīng)用中無(wú)法用起來(lái)。
2022年末,ChatGPT作為一款自動(dòng)化交互式聊天機(jī)器人的出現(xiàn),給業(yè)界啟發(fā),由此帶動(dòng)了后來(lái)自然語(yǔ)言處理領(lǐng)域的解題思路。
只不過(guò),外界一開(kāi)始所忽視的是,這款聊天機(jī)器人最早被命名為ELIZA,其目的是模擬一位心理診療師,通過(guò)接受用戶(hù)的輸入(這個(gè)過(guò)程稱(chēng)為“理解用戶(hù)意圖”),然后巧妙地輸出讓用戶(hù)保持參與的回復(fù)。
但由于大語(yǔ)言模型(LLM)的訓(xùn)練語(yǔ)料是來(lái)自于互聯(lián)網(wǎng)、書(shū)籍、文章等海量數(shù)據(jù),雖然機(jī)器人展示出了比較高的上下文理解能力,但其局限性從其出生就一直攜帶:僅限于語(yǔ)料知識(shí),且往往會(huì)生成一些與事實(shí)不符或毫無(wú)根據(jù)的結(jié)果,甚至編造出一些參考文獻(xiàn),無(wú)意中傳播出錯(cuò)誤信息。其核心就在于,大模型本身是黑匣子,基于統(tǒng)計(jì)學(xué)邏輯,同時(shí)會(huì)結(jié)合提示工程、學(xué)習(xí)指令數(shù)據(jù),生成盡可能與上下文語(yǔ)法語(yǔ)義一致的結(jié)果。
最先進(jìn)的AI模型也容易說(shuō)謊
OpenAI的研究人員在近期報(bào)告中指出,即使是最先進(jìn)的AI模型也容易產(chǎn)生謊言,它們?cè)诓淮_定的時(shí)刻往往表現(xiàn)出捏造事實(shí)的傾向。而這尤其在需要多步驟推理的領(lǐng)域尤為嚴(yán)重,因?yàn)橐粋€(gè)邏輯錯(cuò)誤就足以影響全局。
一個(gè)臭名昭著的例子,是谷歌Bard關(guān)于韋伯望遠(yuǎn)鏡的說(shuō)法。
當(dāng)輸入“可以告訴我9歲的孩子,有關(guān)韋伯望遠(yuǎn)鏡有哪些新發(fā)現(xiàn)嗎?”谷歌Bard回答是:“韋伯望遠(yuǎn)鏡拍攝了太陽(yáng)系外行星的第一張照片。”
其實(shí),該回復(fù)其實(shí)是錯(cuò)誤的。據(jù)NASA稱(chēng),第一張系外行星圖像于2004年拍攝,韋伯望遠(yuǎn)鏡直到2021年才發(fā)射。
鈦媒體摘取了TechTarget上有關(guān)幻覺(jué)的分類(lèi)表述,目前來(lái)看主要有以下幾類(lèi):
- 句子矛盾。
?提示:“用四言句式寫(xiě)一段話描述風(fēng)景?!?/p>
輸出:“The grass was green.The mountains were blue.The river was purple.The grass was brown.”(草是綠色的。山是藍(lán)色的。河流是紫色的。草是棕色的。)
- 與提示矛盾。句子與生成該句子的提示詞矛盾。
?提示:“給我侄女寫(xiě)一張生日賀卡。”
輸出:“周年紀(jì)念快樂(lè),爸爸媽媽?zhuān) ?/p>
- 與事實(shí)矛盾。將虛構(gòu)信息呈現(xiàn)為事實(shí)。
?提示:“說(shuō)出美國(guó)的三個(gè)城市?!?/p>
輸出:“紐約、洛杉磯、多倫多?!?/p>
- 不相關(guān)或隨機(jī)性。生成與輸入或輸出無(wú)關(guān)的隨機(jī)信息。
?提示:“請(qǐng)描述下倫敦?!?/p>
輸出:“倫敦是英國(guó)的一座城市。貓每天至少需要喂一次。”
值得一提的是,生成式AI這件事兒的難點(diǎn),不光在文字生成,同樣也存在于一開(kāi)始的圖像生成領(lǐng)域。
對(duì)抗AI幻覺(jué),從GAN就已經(jīng)開(kāi)始
2017年前后,GenAI使用最多的算法還不是GPT,而是對(duì)抗生成網(wǎng)絡(luò)GAN(Generative Adversarial Networks)。即讓兩個(gè)神經(jīng)網(wǎng)絡(luò)相互PK,從給定的訓(xùn)練數(shù)據(jù)集生成更接近人類(lèi)真實(shí)的圖像。當(dāng)年你看到過(guò)的,生成漫畫(huà)臉/表情、人體姿勢(shì)生成、風(fēng)景合成、老照片修復(fù)等場(chǎng)景,都應(yīng)用自GAN的不同變種。
但此算法有個(gè)問(wèn)題,由于是根據(jù)給定數(shù)據(jù)集,生成的內(nèi)容只會(huì)模仿,無(wú)限接近于真實(shí),無(wú)法真正突破。
GAN的缺點(diǎn)被后來(lái)的擴(kuò)散化模型Diffusion克服。其原理類(lèi)似于給照片去噪點(diǎn),通過(guò)學(xué)習(xí)去噪過(guò)程來(lái)理解一張有意義的圖像是如何生成的,因此Diffusion模型生成的圖片相比GAN模型精度更高,更符合人類(lèi)視覺(jué)和審美邏輯,同時(shí)隨著樣本數(shù)量和深度學(xué)習(xí)時(shí)長(zhǎng)的積累,模型展示出對(duì)藝術(shù)風(fēng)格較好的模仿能力。
從Disco Diffusion,到2023年大火的Stable Diffusion、DALL-E2、MidJourney等,都是基于Diffusion改造而來(lái),為圖生圖或文生圖應(yīng)用的典型代表。
最近,OpenAI提出了對(duì)抗AI“幻覺(jué)”的新策略,即獎(jiǎng)勵(lì)每個(gè)正確的推理步驟,而不是簡(jiǎn)單地獎(jiǎng)勵(lì)正確的最終答案。這種方法被稱(chēng)為“過(guò)程監(jiān)督”,旨在操縱模型提示分解為步驟的方法。
導(dǎo)致AI模型產(chǎn)生幻覺(jué)有若干因素,其中包括訓(xùn)練數(shù)據(jù)有偏見(jiàn)、訓(xùn)練數(shù)據(jù)量不足、訓(xùn)練數(shù)據(jù)過(guò)度擬合、上下文理解有限、領(lǐng)域知識(shí)缺乏等等。
解決大模型的幻覺(jué)問(wèn)題,其實(shí)一直是擺在明面的問(wèn)題。鈦媒體梳理了目前正在應(yīng)用或研發(fā)的企業(yè)公開(kāi)的不同解法。
- 數(shù)據(jù)增強(qiáng)
從源頭上,對(duì)訓(xùn)練數(shù)據(jù)抓起,是多數(shù)企業(yè)在嘗試的事情。原因在于,數(shù)據(jù)質(zhì)量包括源數(shù)據(jù)存在偏見(jiàn)或錯(cuò)誤信息,或訓(xùn)練數(shù)據(jù)量不足,會(huì)導(dǎo)致模型對(duì)其所訪問(wèn)的數(shù)據(jù)理解有限而導(dǎo)致幻覺(jué)。高質(zhì)量的訓(xùn)練數(shù)據(jù)或添加領(lǐng)域知識(shí),可有助于阻止模型生成不準(zhǔn)確或誤導(dǎo)性的結(jié)果。
- 用戶(hù)理解增強(qiáng)
同時(shí),對(duì)上下文缺乏理解。如果輸入提示詞不清楚、不一致或有矛盾的描述,也可能會(huì)產(chǎn)生脫離上下文或不相關(guān)的內(nèi)容。用戶(hù)也可以不斷完善,通過(guò)使用清晰且具體的提示詞,以及多shot提示,即提供所需輸出格式或上下文示例,進(jìn)一步引導(dǎo)模型達(dá)到預(yù)期結(jié)果,或者增加過(guò)濾和排名策略,調(diào)整參數(shù),控制輸出結(jié)果的隨機(jī)性。
- 檢索增強(qiáng)
大模型所需要的知識(shí)并不能只在用戶(hù)提示詞階段獲取。傳統(tǒng)方式上,AI神經(jīng)網(wǎng)絡(luò)是通過(guò)微調(diào)模型來(lái)適應(yīng)特定上下文場(chǎng)景或?qū)S蓄I(lǐng)域信息。盡管基于指令數(shù)據(jù)的微調(diào)技術(shù)很有效,但對(duì)計(jì)算的消耗非常大,且需要匹配實(shí)時(shí)專(zhuān)業(yè)知識(shí),以適應(yīng)不斷變化的輸出,這種方式其實(shí)靈活性不高。
2020年,F(xiàn)acebook AI部門(mén)自然語(yǔ)言處理研究員Lewis等人在論文中提出的檢索增強(qiáng)生成(RAG),將生成器與外掛知識(shí)庫(kù)用檢索器結(jié)合起來(lái),從而更易獲取實(shí)時(shí)信息。這個(gè)過(guò)程不影響底層模型的推理能力,在訓(xùn)練期間習(xí)得的知識(shí)以神經(jīng)網(wǎng)絡(luò)權(quán)重保存,一些非參數(shù)知識(shí)則保存在向量數(shù)據(jù)庫(kù)等外掛知識(shí)庫(kù)中。
用個(gè)形象點(diǎn)的比喻,就是讓大模型進(jìn)行開(kāi)卷考試,可以攜帶課本、筆記等參考資料,用于查找相關(guān)信息答案。開(kāi)卷考試的理念是,重點(diǎn)測(cè)試學(xué)生的推理能力,而不是記憶特定信息的能力。而用戶(hù)查詢(xún)和檢索到的信息也被填充到提示模板中,幫助Prompt提供更強(qiáng)的上下文答案。
大模型的產(chǎn)業(yè)實(shí)踐,機(jī)會(huì)先行
值得關(guān)注的是,目前大模型已經(jīng)在走入一些傳統(tǒng)行業(yè),這其中就包括工業(yè)制造領(lǐng)域。且不論制造業(yè)數(shù)據(jù)基礎(chǔ)和應(yīng)用場(chǎng)景的準(zhǔn)備不足,由于制造業(yè)對(duì)于決策的解釋和可解釋性要求較高,特別是在關(guān)鍵決策和質(zhì)量控制方面,大模型通常被認(rèn)為是黑箱模型,難以解釋其決策過(guò)程和推理邏輯。這可能并不符合制造業(yè)的要求。
某電力自動(dòng)化全球企業(yè)最近分享的實(shí)踐是,將運(yùn)籌求解+深度學(xué)習(xí)結(jié)合起來(lái)進(jìn)行使用,首先在智能排產(chǎn)環(huán)節(jié),不只是在用運(yùn)籌優(yōu)化求解器的算法,甚至包括一些啟發(fā)式的算法。把優(yōu)化求解類(lèi)的問(wèn)題,會(huì)通過(guò)深度學(xué)習(xí)求一個(gè)初始解,然后再給到求解器做一個(gè)精確解。
受制于基礎(chǔ)模型,大模型無(wú)法自我排查錯(cuò)誤,幻覺(jué)問(wèn)題在當(dāng)前解決還無(wú)法根本消除。但產(chǎn)業(yè)界的嘗試已經(jīng)在說(shuō)明,人工智能應(yīng)用的成長(zhǎng),也需要先找場(chǎng)景,再根據(jù)技術(shù)的發(fā)展修正模型。