針對今年在Google I/O 2023期間正式揭曉的人工智慧 服務「Bard 」,Google 8月16日在台由參與「Bard」開發的Google DeepMind科學家紀懷新博士解說,透露Google是如何打造「Bard」。
雖說Google從很早之前就已經投入人工智慧技術發展,其中包含眾人熟悉的Google Assistant數位助理服務,但其實包含Google Search、Google Maps、YouTube、Gmail、Google翻譯 在內服務很早就已經採用人工智慧技術加持,就連Pixel系列手機搭載的相機也同樣藉由人工智慧實現不可思議的夜間拍攝效果。
不過,在「Bard」背後的實際運作模式,實際上與早已用在Google各類服務的人工智慧運作原理有些不同,甚至有明顯差異。主因在於用於Google諸多服務的人工智慧多半是藉由巨量數據進行深度學習之後,依照不同情況判斷做出最佳決策,例如判斷使用者經常開啟App、使用功能,或是透過關鍵字提供最合適解答,但「Bard」希望實現的互動則更像與人互動,除了給予使用者當下最佳解答,還能依照後續學習進行調整。
實際上的差異,比較像是Google Assistant的前身Google Now,主要是透過語音 識別方式,將語音內容轉換成文字進行搜尋,再將解答或搜尋結果呈現在頁面上,但實際上系統本身可能並不「理解」使用者所要尋找內容,只是單純將資料進行比對選出較貼近關鍵字詞的內容。但是在後續更新的Google Assistant則是開始接入大型自然語言模型,並且透過學習機制開始「理解」使用者實際需求,並且在比對結果條列更貼近實際需求的答案。
而對於使用者而言,可能很難分辨其背後實際運作模式差異,紀懷新博士表示「Bard」的運作原理並非只是將英文版本完成訓練,接續透過類似Google翻譯的運作機制,將使用者語言進行轉換即可。實際上是讓「Bard」能真正理解特定語言,進而實際明白使用者實際需求,因此並非透過翻譯機制進行串接即可對應不同語言,實際上還是要透過大量語言內容進行學習訓練。
雖然「Bard」初期僅對應英文互動,但是藉由其背後串接Google過去打造的Transformer自然語言模型,加上透過中介語言進行轉換,很快地就能透過深度學習方式讓「Bard」學會中文在內語言,並且能理解這些語言所陳述含意。
「Bard」最初接入的大型自然語言是Google在2021年公布具備1370億組參數構成的LaMDA,並且透過自有TPU進行加速訓練,讓「Bard」能理解合理性、具體性、趣味性、安全性、真實性,以及包含整合及多項跳躍式問答內容,甚至能夠進行微調。而在今年Google I/O 2023期間,Google則是宣布將新版PaLM 2大型自然語言模型接入「Bard」,使其能以更自然方式溝通互動,並且給予更合適解答。
相比早期的Google Assistant僅能提供單一、固定的解答,甚至在溝通過程顯得生硬、不自然,Google希望能在「Bard」實現更自然互動、更能真正理解使用者需求,即便使用者透過不同語言進行互動也能提供合理、正確解答,甚至能夠依照後續學習調整、修正解答內容。
但紀懷新博士也強調在真實生活中,許多事物的「解答」其實充滿多面性,甚至可能會因為使用者提問方式不同有差異,加上人工智慧背後運作還是仰賴大量學習數據,甚至牽涉更複雜的隱私 、道德等問題,因此成為當前人工智慧難以避開,同時必須面對的難題。
因此,Google目前在「Bard」服務仍以beta形式提供使用,甚至在提供最佳解答之外,還會額外提供不同候選解答,目的也是希望能透過使用者反饋進行微調,讓人工智慧做出抉擇更為精準,另外也會在解答內容加上引述來源,避免在解答產生偏見。
紀懷新博士表示,Google會以更負責任態度投入人工智慧技術研發,而「Bard」僅只是目前投入發展項目之一,未來目標希望能讓人工智慧滲入更多生活場景,但也會以謹慎態度避免造成歧視、不公,或是影養使用者隱私安全等問題,並且讓人工智慧能加速更多產業成長。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》