精品国产av一区二区三区,国产av一区二区三区,丰满少妇大乳高潮在线,9lporm自拍视频区九色

當前位置:首頁 > 最新資訊 > 行業資訊

谷歌的生成人工智能戰略是什么?

谷歌生成人工智能策略

圖片來源:123RF(有修改)

本文是我們探索人工智能業務系列的一部分

2022年對于生成式人工智能來說是重要的一年。大型語言模型在生成文本和軟件代碼方面不斷取得進展。與此同時,隨著DALL-E 2、Imagen 和 Stable Diffusion 等模型的引入,我們看到了文本到圖像生成器的巨大進步。

這一年還標志著生成式 AI 模型產品化的加速。生成模型的科學和技術正在成熟到能夠解決實際問題的程度。現在,微軟和谷歌等公司正在尋找方法,在可能改變未來創造力的新興市場中占據領先地位。

在本周的AI@'22 會議上,谷歌展示了其在其產品中利用生成模型的路線圖。它的戰略可能是該領域走向何方以及未來競爭可能轉向何處的前奏。

谷歌的生成模型

谷歌部分生成模型

Google Parti 使用轉換器從文本令牌創建圖像(來源:YouTube)。

在 AI@ '22 上,Google Research 首席科學家 Douglas Eck 列出了 Google 目前在四個領域對生成模型的研究:文本、源代碼、音頻、圖像和視頻。

谷歌目前正在所有這些領域進行測試項目,著眼于未來創造產品。Wordcraft 作家研討會旨在幫助作家在寫作中從大型語言模型中獲得幫助。Google 創建了 Wordcraft,這是一個使用語言模型 LaMDA根據用戶提供的提示生成文字的工具。該工具旨在在人類作家和 LLM 交互以共同創建故事的迭代過程中使用該模型。

“使用 LaMDA 編寫完整的故事是一條死胡同。當它用于為特定角色添加香料或增強故事的某個方面時,它是一種更有效的工具,”埃克說。“用戶界面也必須正確。Wordcraft 工具的設計初衷就是讓作者能夠與生成模型進行交互。”

Learning for Code 是一個使用 LLM 為開發人員生成代碼建議的項目。Google 目前正在內部測試該工具,它包括單行和多行代碼完成建議。

AudioLM 使用語言模型來生成音頻。該模型將音頻樣本作為輸入并繼續它。它可用于生成音樂和語音。

Eck 在 AI@'22 上展示的最先進的模型可能是文本到圖像模型Imagen和Parti。Imagen 的工作方式類似于 OpenAI 的 DALL-E 2,并使用擴散模型將語言嵌入轉換為圖像。Parti 使用轉換器架構從文本標記生成圖像。DreamBooth是一個模型,它可以調整像 Imagen 這樣的文本到圖像生成器,以在不同的上下文中顯示主題。DreamFusion將擴散模型的強大功能與神經輻射場 (NeRF)相結合,這是一種可以從 2D 圖像創建 3D 模型的深度學習架構。

谷歌夢想展位

Google DreamBooth 微調生成模型以在不同的上下文中顯示特定主題。

Eck 還展示了 Google 使用 Imagen Video 和 Phenaki 進行視頻生成研究的預覽。Imagen Video 使用擴散模型創建一系列高分辨率圖像,這些圖像可以拼接在一起以創建視頻。Phenaki基于轉換器架構,將一系列文本提示轉換為一系列圖像。Eck 還展示了如何使用 Imagen Video 和 Phenaki 的組合從提示序列創建高分辨率視頻。

谷歌的生成模型政策

Eck 在整個演示文稿中明確指出的一件事是,生成模型并不意味著自動化或取代人類的創造力。

“它不再是關于創建逼真畫面的生成模型。這是關于制作你自己創造的東西,”埃克說。“技術應該滿足我們對我們所做的事情的代理和創造性控制的需求。”

當他討論谷歌的“負責任的人工智能”戰略時,他進一步強調了這一點,并在演講結束時說:“創造力是使我們成為人類的重要組成部分。我認為在構建這些 AI 系統時牢記這一點很重要。”

除了這種言論的公關方面,旨在緩解對生成人工智能模型取代人類創造力的恐懼(這在很大程度上被夸大了),對控制的強調具有將領域轉向以人為中心的人工智能的積極影響。人工智能系統的設計方式應該提供透明度和控制以增強人類。如果沒有人類的控制和監督,生成模型等 AI 系統將表現不佳,因為它們對基本概念的掌握不如我們人類。

谷歌可以在生成人工智能領域競爭嗎?

谷歌vs adobe vs微軟

人工智能研究和產品化之間的鴻溝很難彌合。當然,谷歌的 LLM 和文本到圖像模型的質量并不遜色于OpenAI 的 GPT-3和 DALL-E 2。但問題是,谷歌能否基于這些模型提供成功的產品?

在考慮將技術產品化時,需要考慮幾個方面。技術會成為新產品的基礎嗎?如果沒有,是否會集成到現有產品中?它正在解決什么問題,目前存在哪些替代解決方案?產品是否提供了足夠的附加值來說服用戶轉換?它能否幫助鞏固公司在現有市場中的地位?

自然,公司將努力實現唾手可得的成果,即將技術帶到他們已經擅長的市場。在寫作領域,微軟領先于谷歌。Office 365 擁有比 G Suite 更大的市場份額,微軟在將 LLM 集成到其產品方面已經領先一步。

微軟在GitHub Copilot和 Codex的編碼方面也處于領先地位,與谷歌的內部代碼生成工具相比,它們已經進入了生產模式。谷歌最受歡迎的開發工具是 Colab 和 Android Studio,這將為它提供一個場所,以便在它準備好時測試和推出其代碼 AI。但這些 IDE 的市場份額無法與微軟的 Visual Studio Code 和 GitHub Codespaces(同樣歸微軟所有)相提并論。

在圖像、視頻和音頻領域,我認為 Adob??e 將成為生成 AI 的贏家。Adobe 已經擁有最大的市場份額和完善的工具,這些工具會定期更新 AI 功能。Adobe 已經在其工具套件中嘗試使用生成式 AI工具。

然而,這并不意味著在位者一定會主導生成人工智能領域。目前,我們正在從我們今天使用的工具(例如文字處理器、IDE 和圖像編輯應用程序)的角度來研究生成模型。基本上,我們正在研究生成模型如何自動化或改進我們已經在做的任務(完成我們的句子、編寫代碼塊、編輯或生成照片等)。當我們創建新的工具和工作流系統時,人工智能的真正潛力將得到發揮,這些系統可以充分利用生成模型的不斷增長的力量和人工智能的其他進步,以完全不同的方式做事(我在這里有一些想法,我以后會詳細介紹)。

正如谷歌重塑了信息發現和亞馬遜隨著網絡的普及而重塑了購物一樣,發現并擁抱人工智能新機遇的公司必然會改造現有市場或創造新市場。

猜你喜歡