久久激情视频中文字幕,日本欧美性爱网一区

微信咨詢

咨詢QQ

咨詢電話

公眾號

TOP

首頁 > 知識 > 科技前沿

新方法避免AI一本正經“胡言亂語”

來源：科普中國

作者：王琳琳劉傳波

發(fā)布時間：2024-09-12

瀏覽次數(shù)：936

目前，大語言模型逐漸成為文學、法律、醫(yī)學、自然科學研究等領域中不可或缺的工具。然而，在應用過程中，大語言模型常會出現(xiàn) “幻覺”現(xiàn)象——可能生成看似合理但實際并不準確或不真實的信息。比如，在新聞領域，大語言模型可能會編造出完全不存在的新聞事件；在法律領域，它可能引用虛構的法律條文和案例；在醫(yī)學領域，它可能會提供錯誤的診療建議，甚至危及患者生命安全。鑒于此，用戶在使用這些大語言模型輸出的答案時不要盲目相信，而應對每次輸出的答案進行仔細核實和驗證。

英國牛津大學研究團隊近日在國際學術期刊《自然》上發(fā)表論文，嘗試解決大語言模型輸出中的這種“幻覺”現(xiàn)象，從而提高輸出的可信性。通過評估大語言模型在特定提示詞下生成內容時的不確定性，可計算出該模型的困惑程度。作為一種警示，它提醒用戶或模型自身采取額外的循證措施，以確保更準確地輸出答案。

為了更準確衡量模型的困惑程度，該論文引入了“語義熵”概念來計算輸出的不確定性。所謂語義熵，實際上是信息熵的一種，用于衡量一個物理系統(tǒng)中所包含的信息量。

為了簡單理解“熵”所表示的意思，我們可以想象一個人在岔路口時作出判斷的情形：如果這個人向左走或向右走的概率相同，那么這是“熵”的最大情況，代表信息不確定性的極大值，說明這個人對前方的路完全沒有把握；而如果這個人總是選擇向左走，從不選擇向右走，則這是“熵”的最小情況，代表信息不確定性的極小值，說明這個人對前方的路完全有把握。

然而，當涉及語言時，情況會變得更加復雜。相同的意思可以通過不同的表達方式來傳達。例如， “埃菲爾鐵塔的位置在哪里”，答案可以是“巴黎”“在巴黎”或“在法國首都”。為了解決這種語言本身導致的不確定性，研究人員將意義相同的回答進行聚類，從而形成一個統(tǒng)一的輸出答案，進而計算出聚類后模型輸出答案的“熵”。如果模型輸出的句子都是表達相同語義的句子，那么語義熵值就會較低，這意味著模型對于自己的輸出答案非常確定；反之，語義熵則會很高，表明模型對自己輸出的答案感到不確定。

利用語義熵概念，研究人員對包括GPT-4和LLaMA2在內的多個大語言模型進行深入研究。結果顯示，語義熵在所有模型和數(shù)據(jù)集上的表現(xiàn)都非常出色，是目前用于評估模型困惑程度的最佳方法，能有效識別出大語言模型是否在“胡言亂語”。另外，通過對大語言模型進行反復提問，我們可以有效地定量計算出它對問題答案的不確定程度，并通過拒絕回答不確定的問題來提高輸出答案的整體準確度。

語義熵的優(yōu)勢顯而易見，它不需要對大語言模型進行改動或重新訓練，也不需要額外的成本就可立即應用于目前所有的大語言模型。此外，在設計大語言模型時，我們可以將語義熵作為參考指標，在遇到可能不確定的答案時可以選擇拒絕回答或嘗試進行聯(lián)網搜索，從而提高答案的可靠性。語義熵甚至可以用于人類也不知道答案的未知問題，定量判斷大語言模型輸出答案的確定性。

值得注意的是，利用語義熵來判斷大語言模型輸出的困惑程度，并不等同于對輸出正確與否的判斷。換句話說，大語言模型輸出答案具有很低的語義熵，只意味著它在其已有的訓練數(shù)據(jù)基礎上確信自己答案是正確的。這表明大語言模型有極高概率生成單一語義的句子，但這些句子是否實際正確仍無法完全保證。

盡管如此，這項研究無疑是在實現(xiàn)完全機器自主語言生成的道路上邁出了重要一步，為大語言模型理解其自信度提供了新的視角，給未來發(fā)展帶來了無限可能。

（作者王琳琳系中國科普作家協(xié)會會員、吉林省科學技術工作者服務中心助理研究員，劉傳波系吉林省科普創(chuàng)作協(xié)會會員、中國科學院長春應用化學研究所博士）

點擊查看中國科普資源名錄資源展示

點擊查看中國科普資源名錄資源需求

歡迎掃碼關注深i科普！

我們將定期推出

公益、免費、優(yōu)惠的科普活動和科普好物！