不斷縮小的決策窗口和更快的數(shù)據(jù)生成使得實(shí)時(shí)分析成為一種新興的熱門產(chǎn)品類別。Rockset首席執(zhí)行官兼聯(lián)合創(chuàng)始人Venkat Venkataramani表示,現(xiàn)在,隨著大型語言模型(LLM)和矢量數(shù)據(jù)庫為企業(yè)人工智能鋪平了道路,我們突然進(jìn)入了實(shí)時(shí)人工智能系統(tǒng)的時(shí)代。
到目前為止,Rockset一直在開發(fā)一個(gè)關(guān)系數(shù)據(jù)庫,使用戶能夠?qū)Υ罅啃螺斎氲臄?shù)據(jù)連續(xù)運(yùn)行SQL查詢。從傳統(tǒng)數(shù)據(jù)倉庫供應(yīng)商到實(shí)時(shí)流處理器,許多大數(shù)據(jù)開發(fā)人員一直難以做到這一點(diǎn)。
Rockset通過在其開放的RocksDB的關(guān)鍵價(jià)值商店上構(gòu)建的一系列功能來滿足實(shí)時(shí)分析需求。Rockset首席技術(shù)官兼聯(lián)合創(chuàng)始人Dhruba Borthakur在Facebook幫助下創(chuàng)建了關(guān)鍵價(jià)值商店。這包括Rockset強(qiáng)大的聚合索引功能,但也包括其非結(jié)構(gòu)數(shù)據(jù)的接收、時(shí)間序列優(yōu)化、查詢規(guī)劃和基于云的架構(gòu)。
到目前為止,目標(biāo)是讓實(shí)時(shí)應(yīng)用程序能夠訪問通過Kafka管道到達(dá)的最新數(shù)據(jù)。與其他追逐實(shí)時(shí)分析夢想的數(shù)據(jù)庫公司(Imply、Clickhouse和StarTree)一樣,沒有任何一項(xiàng)出色的功能可以讓你突然成功地在大量傳入數(shù)據(jù)上運(yùn)行每秒數(shù)萬次SQL查詢。相反,這是一種通過不懈的工程實(shí)現(xiàn)的能力。
但在4月份發(fā)生了變化,Rockset推出了對(duì)數(shù)據(jù)庫中矢量搜索功能的初步支持。新功能使Rockset不僅可以在其數(shù)據(jù)庫中存儲(chǔ)和索引向量嵌入,還可以將這些向量嵌入與元數(shù)據(jù)過濾、關(guān)鍵字搜索和向量相似性得分相結(jié)合。
Venkataramani表示,這些新的矢量相關(guān)功能將為客戶解鎖實(shí)時(shí)人工智能應(yīng)用,特別關(guān)注產(chǎn)品推薦、個(gè)性化和欺詐檢測。
他說:“這方面以前稱為預(yù)測分析。能夠預(yù)測即將發(fā)生的事情。但如今,這都是實(shí)時(shí)人工智能。”
自去年年底ChatGPT出現(xiàn)以來,公司開始重新思考如何以及在哪里應(yīng)用人工智能。Venkataramani表示,基于神經(jīng)網(wǎng)絡(luò)和向量嵌入的新技術(shù)和技術(shù)正在顛覆五年前被認(rèn)為是前沿的機(jī)器學(xué)習(xí)方法。
以產(chǎn)品推薦為例,這是一個(gè)經(jīng)過時(shí)間考驗(yàn)的數(shù)據(jù)科學(xué)家應(yīng)用程序。與識(shí)別最具預(yù)測性的特征和屬性、構(gòu)建自動(dòng)提取它們的管道,然后在運(yùn)行時(shí)仔細(xì)構(gòu)建機(jī)器學(xué)習(xí)模型來推斷消費(fèi)者偏好的艱苦過程不同,隨著LLM的出現(xiàn),公司現(xiàn)在基本上可以將所有這些數(shù)據(jù)放入文本文檔中,并由神經(jīng)網(wǎng)絡(luò)進(jìn)行分類。
他說:“以前,機(jī)器學(xué)習(xí)模型會(huì)試圖提取關(guān)于你的產(chǎn)品、產(chǎn)品顏色、制造商、產(chǎn)品類別等的屬性。”“但現(xiàn)在,你可以給這些人工智能模型和神經(jīng)網(wǎng)絡(luò)一個(gè)BLOB(表示二進(jìn)制類型的大對(duì)象)的文本。你可以給每個(gè)產(chǎn)品一個(gè)圖像目錄,你不需要告訴它‘去標(biāo)記這些圖像,說這是藍(lán)色的,屬于同一類。’”
“現(xiàn)在你可以提供用戶正在觀看的所有產(chǎn)品,人工智能模型可以理解用戶的喜好和厭惡,而不必根據(jù)特定的屬性和規(guī)則進(jìn)行編碼。”“因此,你可以為用戶提供并構(gòu)建一個(gè)向量,該向量代表了他們有更高機(jī)會(huì)喜歡或購買的所有潛在產(chǎn)品。”
這大大降低了在生產(chǎn)中使用人工智能的門檻,并使公司能夠利用人工智能做更多的事情。他說,理論上,這可以使一家公司對(duì)其目錄中的10萬件商品進(jìn)行預(yù)測分析,而不是將其限制在前1000件商品。
有了人工智能,就好像一些機(jī)器人在觀察用戶的所有行為,并更深入地了解每一種產(chǎn)品,然后在用戶出現(xiàn)在網(wǎng)站上時(shí)實(shí)時(shí)構(gòu)建推薦,而不是一小時(shí)后、一天后或一周后。可以個(gè)性化的程度已經(jīng)達(dá)到了頂峰,因?yàn)楝F(xiàn)在可以將所有這些自動(dòng)化。
Rockset不創(chuàng)建矢量嵌入(矢量嵌入是大量非結(jié)構(gòu)化文本或圖像數(shù)據(jù)的濃縮表示)。但它確實(shí)允許用戶將向量嵌入基本上視為數(shù)據(jù)庫中的另一種數(shù)據(jù)類型,并對(duì)其執(zhí)行操作,例如相似性搜索。
Venkataramani說: “我們不在乎你用什么模型來獲取非結(jié)構(gòu)化數(shù)據(jù)并將其轉(zhuǎn)化為向量。” “把它想象成另一種數(shù)據(jù)類型,你的表中的另一列。你現(xiàn)在需要對(duì)它們進(jìn)行相似性搜索。你需要說,給定一個(gè)向量,給我找到所有其他更接近我正在搜索的向量。”
假設(shè)客戶希望識(shí)別傳入數(shù)據(jù)流中所有類似雛菊的圖像(如果應(yīng)用在公共安全而不是花園游覽,則可以將“雛菊”替換為“槍”或“刀”)。
Venkataramani解釋道:“我正在尋找的矢量是一朵雛菊,但這里是用矢量表示的所有其他圖像。” “現(xiàn)在你需要一個(gè)索引。如果你對(duì)整個(gè)庫進(jìn)行強(qiáng)力搜索,這個(gè)問題需要10天才能得到答案。我希望在100毫秒內(nèi)完成。你是怎么做到的?”
根據(jù)向量嵌入的索引運(yùn)行機(jī)器學(xué)習(xí)算法,如K-最近鄰(KNN)或近似最近鄰(ANN),顯著加快了對(duì)輸入數(shù)據(jù)中雛菊和雛菊相鄰圖像的識(shí)別。
沒有人在數(shù)據(jù)庫中尋找這個(gè)確切的向量。他們?cè)趯ふ宜懈咏蜃罱咏南蛄浚@就是索引在數(shù)學(xué)上比根據(jù)數(shù)字、字符串、日期或時(shí)間構(gòu)建索引復(fù)雜得多的地方。這就是為什么矢量搜索是一種非常不同的功能,這也是Rockset所增加應(yīng)對(duì)實(shí)時(shí)需求的有力功能。