筆記大綱
這份筆記的編排邏輯,是拆解生成式 AI 的各個核心知識點,順序如下:
- 第一部分:基礎概念與關係
解釋什麼是生成式 AI ,以及其與人工智慧 (AI)、機器學習 (ML) 的層次關係 - 第二部分:核心運作方式與特點
深入探討生成式 AI 的運作原理 ,包含其強大的 Transformer 架構與需要注意的幻覺問題 - 第三部分:提示設計
介紹如何透過提示 (Prompt) 來引導模型 - 第四部分:廣泛應用
介紹生成式 AI 在程式碼生成 、內容創作 、數據分析 、產業應用等多個領域的用途 - 第五部分:Google Cloud 實作工具
介紹 Google Cloud 提供的 Vertex AI Studio 、Gemini 、Model Garden 等可用於開發的工具
一、什麼是生成式 AI?
生成式 AI 是一種人工智慧 (AI)技術,能夠從現有內容中學習並根據所學產生全新內容,包括文字、圖像、音訊和合成資料
「學習」的過程稱為「訓練」,訓練完成後會得到一個統計模型
當提供提示 (Prompt)時,生成式 AI 會運用此統計模型預測預期的回覆,進而生成新內容
生成式 AI 是一種人工智慧技術,能生成多種內容,包括文字、圖像、音訊和合成資料
二、AI、機器學習與生成式 AI 的關係
為了更好地理解生成式 AI,我們需要先釐清 人工智慧 (AI) 和 機器學習 (ML) 的定義及其彼此的關係
人工智慧 Artificial Intelligence (AI):
AI 是一門學科,也是電腦科學的一個分支,主要研究如何開發智慧型虛擬服務專員,也就是能自主推論、學習並行動的系統
AI 涵蓋一系列理論與方法,目標是打造能模仿人類思考和行動的機器
機器學習 Machine Learning (ML):
機器學習是人工智慧 (AI) 的子領域
它是一種會根據輸入資料訓練模型的程式或系統
訓練好的模型能根據全新資料進行實用的預測,這些資料衍生自先前用來訓練模型的素材
機器學習的兩大常見類別:
-
監督式模型:使用「標籤」資料進行訓練,模型會根據過去的樣本學習並給出預測值
像是根據帳單金額和訂單類型預測小費 -
非監督式模型:處理沒有標記的「無標籤」資料,目標是探索和觀察原始資料,看看資料是否自然而然形成群組
像是根據年資和收入將員工分組 -
半監督式模型:可以使用有標籤和無標籤資料,通常使用這種方式是因為有標籤的資料稀少
像是醫學影像的辨識
深度學習 Deep Learning (DL):
深度學習是機器學習 (ML)技術的一種,採用「人工類神經網路」
人工類神經網路受人類大腦運作方式啟發
它能處理更複雜的模式,通常擁有多層神經元,能學習較複雜的模式
深度學習模型可分為生成式和判別式兩類:
-
判別式模型:用來分類或預測資料點的標籤,學習的是條件機率分布 P(Y∣X),即給定輸入 X 時輸出 Y 的機率
-
生成式模型:從現有資料中學習機率分布,然後生成新的資料實例,學習的是聯合機率分布P(X,Y),即 X 和 Y 同時發生的機率
三、生成式 AI 的運作方式與特點
生成式 AI 模型學習資料的基礎架構,然後生成與訓練資料相似的新樣本
-
模式比對系統:生成式語言模型是一種模式比對系統,會根據提供的資料來學習模式
-
Transformer 架構:生成式 AI 的強大力量來自於 Transformer
Transformer 模型由編碼器和解碼器構成,對自然語言處理領域產生了革命性的影響
J 是個魔法一般痛苦的東西,希望各位未來不用碰到它簡單來說呢
以前的 AI 模型就像一個學徒廚師,他一次只能看食譜上的一個步驟,而且是嚴格按照順序:「1. 先切洋蔥」、「2. 再炒牛肉」、「3. …」
當他做到第十個步驟,要求加入「前面準備好的那份醬料」時,可能已經忘記第一步做的醬料是什麼味道、有哪些材料了
他依賴模糊的「短期記憶」而 Transformer 模型像一個經驗豐富的主廚團隊,他們會把整份食譜攤開在一個大桌子上,所有人同時看到所有的步驟,當要準備紅酒燉牛肉時,團隊會一起大聲討論:
「要決定『燉』要用多大的火,最重要的參考資訊是什麼?」
這時,團隊成員(注意力機制)會開始「投票」:
有人指著食譜開頭的「牛肉部位:牛肋條」說:「這個最重要!牛肋條需要小火慢燉!」(這個詞獲得很高的注意力分數)
有人指著中間的「紅酒:卡本內蘇維濃」說:「這個也很重要,它的單寧會影響燉煮時間。」(這個詞也獲得不錯的分數)
而對於「盤飾:巴西里碎」或「鹽:一小撮」這些詞,大家覺得對「燉煮的火侯」這件事沒那麼關鍵,所以給了很低的分數
最後,模型綜合了所有的高分線索,做出決定:「OK,我們用小火慢燉 2 小時。」Transformer 最厲害的就是找出全局關聯性並給予重點加權
-
幻覺:指模型生成的字詞或詞組內容無意義、有文法錯誤,或生成不正確、誤導性的資訊
原因可能包括訓練資料不足、有雜訊、品質不佳,或沒有對模型設下足夠的限制
四、提示設計 (Prompt Design)
-
提示 (Prompt):一段文字,以輸入內容的形式提供給大型語言模型,用來控制模型的輸出內容
-
提示設計:找出合適提示的過程,目的是讓大型語言模型生成期望的輸出內容
生成式 AI 十分仰賴提供的訓練資料,它會分析輸入資料的模式和結構並從中學習
五、生成式 AI 的模型類型與基礎模型
生成式 AI 涵蓋多種模型類型,能處理不同形式的輸入和輸出:
-
文字轉文字模型 (Text-to-Text Models):接收自然語言並產出文字,例如語言翻譯
-
文字轉圖片模型 (Text-to-Image Models):以大量圖片和簡短說明文字訓練而成,根據文字輸入生成圖片,例如擴散模型
-
文字轉影片模型 (Text-to-Video Models):根據輸入文字(單個句子或完整腳本)生成相應的影片
-
文字轉 3D 模型 (Text-to-3D Models):根據使用者輸入的文字描述生成 3D 物件,可用於遊戲或其他 3D 環境
-
文字轉工作模型 (Text-to-Task Models):根據文字輸入內容執行特定工作或動作,如回答問題、搜尋內容、做出預測或操控網頁 UI
基礎模型 (Foundation Models):
一種規模更大、運用巨量資料預先訓練的大型 AI 模型
可調整或微調以處理多種下游工作,如情緒分析、產生圖像說明及辨識物件
基礎模型可望對許多產業帶來革命性的影響,包括醫療照護、金融和客戶服務
基礎模型包含語言基礎模型(對話、文字、程式碼)和影像基礎模型(Stable Diffusion)。
六、生成式 AI 的廣泛應用
生成式 AI 的應用範圍非常廣泛,涵蓋多個領域:
-
程式碼生成:生成程式碼、對原始碼偵錯、逐行解釋程式碼、生成 SQL 查詢、翻譯程式碼內容、生成說明文件和教學內容
像是輸入了程式碼檔案轉換問題,要求 Gemini 將 Python 轉成 JSON -
內容創作:生成文章、故事、詩歌、劇本等文字內容
-
智能客服與搜尋:建構聊天機器人、數位助理
-
數據分析與預測:情緒分析(瞭解顧客對產品或服務的感受)
-
產業應用:醫療照護、金融、客戶服務
-
多模態 AI:Gemini (Google 的多模態 AI 模型) 能執行複雜工作
七、Google Cloud 上的生成式 AI 工具
Google Cloud 提供多項工具和平台來協助開發人員利用生成式 AI:
-
Vertex AI Studio:快速探索及自訂生成式 AI 模型,並用於 Google Cloud 上的應用程式
提供預先訓練模型、模型微調工具、模型部署工具和社群論壇 -
Vertex AI Agent Builder (原稱 Vertex AI Search and Conversation):協助客戶和員工建構採用生成式 AI 的搜尋與對話功能,只需少量程式碼或無需程式碼,且無需機器學習經驗
可用於建立聊天機器人、數位助理、自訂搜尋引擎、知識庫和訓練應用程式 -
Gemini:一種多模態 AI 模型,能夠解讀文字、圖片、音訊和程式碼
具備先進的架構,適應力和擴充性強,適合各種應用程式這些模型會從多個網路來源擷取極大量資料並建構基礎語言模型
-
Model Garden:持續更新並提供各種基礎模型