Google Research與DeepMind團隊近期發表一項新研究,提出名為「StreetViewAI 」的創新系統,嘗試解決長久以來街景 地圖 對視障 者「視覺依賴」的限制,讓他們也能透過AI對話形式,探索Google街景覆蓋全球100多國、超過2200億張影像的龐大資料庫。
傳統街景服務以沉浸式360度影像為核心,雖能為一般使用者 提供直覺的環境感知,但對於必須依靠聽覺或輔助工具的視障者卻相當不友善。
而StreetViewAI的設計用意,正是希望改變這種情況。透過整合Google Gemini Flash 2.0為基礎的多模態模型,研究團隊建立了三大子系統:「AI Describer」、「AI Chat Agent」與「AI Tour Guide」。
其中,AI Describer會即時將畫面中的物件、空間關係與導航線索,轉換為簡明的語音 說明。AI Chat Agent則讓使用者能自由提問,例如「這條人行道有遮蔭嗎?」、「咖啡廳入口是否能讓輪椅通行?」甚至「這條路線上有什麼驚喜的景點?」等,AI 都能根據過往視點與對話脈絡給予回答。
至於AI Tour Guide則進一步提供歷史、文化與建築背景 的導覽資訊,讓探索過程更具深度。
StreetViewAI功能整理表:
| 子系統名稱 | 主要功能 | 使用情境/範例 |
|---|---|---|
| AI Describer | 即時語音描述畫面中重要物體、空間關係與導航線索 | 使用者可得知「前方 10 公尺有公車站」、「右側有行人穿越道」等資訊 |
| AI Chat Agent | 提供自然對話互動,回答使用者針對場景的問題,並保留對話脈絡 | 「這條路有陰影嗎?」、「咖啡廳入口是否能讓輪椅通行?」、「這條路線上有什麼驚喜?」 |
| AI Tour Guide | 補充導覽資訊,包含歷史背景、文化意義、建築風格等 | 在探索巴黎街景時,說明某座建築的歷史或建築特色 |
在實際測試中,研究團隊邀請11位經常使用白杖與螢幕報讀工具的視障者參與,並且設計目的地搜尋與自由探索兩種任務。過程中,參與者與AI Chat Agent的互動多達917次,占比遠高於AI Describer的136次,顯示對話式互動更符合需求。
數據統計顯示,AI對問題的正確回覆率達86.3%,誤答率僅為3.9%。其中,最常被詢問的主題為空間位置關係 (27%)、物體存在確認 (26.5%),以及即時場景描述 (18.4%)。
參與者普遍以語音作為主要互動方式,佔比超過九成。有測試者表示,以往導航系統往往只能帶到目的地前方數公尺的位置,但StreetViewAI不僅能「領到門口」,甚至能描述門的外觀與可通行性,提供更精確的指引。
這項研究凸顯Google在多模態AI技術應用上的野心,同時也呈現AI不只是娛樂或效率工具,更能成為改善弱勢群體生活品質的重要橋樑。隨著未來持續優化準確率與支援範圍,StreetViewAI或許不只是能改變視障者的數位體驗,更可能拓展至教育、旅遊與智慧城市導覽等更廣泛的應用場景。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》
訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢 POCO F8 Ultra開箱!驚豔Bose低音砲 實測鏡頭拍峇里島日出、捕捉厭世猴群
📢 LINE吃200GB空間!刪1群組「全當機」靠它救回 他曝安心刪除方法
📢 iPhone用戶小心!他「打FaceTime」慘交5700元電話費 改1設定防中招
📢 iPhone 18系列「史上最難選」!打破賈伯斯策略 選機方式大變動
📢 DJI Neo 2開箱!實測新手操作 空拍日出、環繞、跟拍1秒上手
📢 懶人包/LINE帳號換機方法一文看懂!開始前檢查3件事、1錯誤害資料救不回
