48271 向量數據庫這杯“啤酒”與“泡沫”

2018高清国产一区二区三区-国产黄色视频免费在线观看-欧美激情欧美精品一区二区-免费国产一级片内射老妇

服務熱線:400-858-9000 咨詢/投訴熱線:
國內專業的一站式創業服務平臺
向量數據庫這杯“啤酒”與“泡沫”
2023/07/28
和AI、大模型一樣,向量數據庫要品出味道,離不開時間的窖藏和醞釀。
本文來自于微信公眾號“腦極體”(ID:unity007),投融界經授權發布。

就像啤酒注定要有泡沫(mo),每一場(chang)淘金熱(re)都不缺被捧(peng)上了時代風口的人。

大模(mo)型(xing)這(zhe)一波熱潮中,向量數據(ju)庫就是(shi)那個幸運(yun)兒。

一(yi)方面(mian)(mian),技術(shu)層面(mian)(mian)并沒有太大突(tu)(tu)破(po)。向(xiang)量數(shu)據(ju)庫并不是一(yi)種特別新的(de)(de)(de)數(shu)據(ju)庫技術(shu),在AI領域已經應用了七八年,谷歌在2015年就宣布使(shi)用RankBrain語義檢索(suo)來處理搜(sou)索(suo)任務。相比N家(jia)的(de)(de)(de)卡、液冷(leng)的(de)(de)(de)算、全光(guang)的(de)(de)(de)網、升級的(de)(de)(de)存(cun),向(xiang)量數(shu)據(ju)庫在技術(shu)方面(mian)(mian)并沒有特別亮(liang)眼的(de)(de)(de)突(tu)(tu)破(po)。

而另一(yi)方(fang)面,向量數(shu)據庫(ku)的(de)投(tou)資熱(re)潮又(you)特(te)別(bie)旺盛(sheng)。在上半年成了(le)創業(ye)公司、云計算廠商(shang)、老牌數(shu)據庫(ku)公司,以及投(tou)資人們“群起而攻之”的(de)風口,Pinecone、Chroma和Weviate等向量數(shu)據庫(ku)初創公司都獲(huo)得了(le)融資,有的(de)融資額(e)高達上億(yi)美元。這(zhe)在全(quan)球經濟不明(ming)朗的(de)投(tou)資形(xing)勢下,還是非常亮眼的(de)成績。

不同(tong)于GPU卡那樣(yang)短期內需求堅挺、供(gong)不應求,加上摩(mo)爾定律的約束(shu),即使有泡(pao)沫,也是鐵做的。也不同(tong)于存算網這類“新基(ji)建”,長期投入的戰略價值,得到了廟堂和(he)民間的一致重視。

向量數據庫這杯“啤酒”與“泡沫”

向量數據庫,更多是作為(wei)一種AI基礎技術和產品,開始(shi)為(wei)大(da)眾所知曉。

僅憑這樣,就在投資市場上一飛沖天,多(duo)少有點讓(rang)人不(bu)安。加(jia)上最近,大(da)訓(xun)模型的(de)熱度開始降(jiang)(jiang)溫,ChatGPT訪(fang)問量下降(jiang)(jiang),更多(duo)大(da)模型已經(jing)到地里田間礦井“干(gan)活兒”去了。

不禁(jin)讓人好奇,隨(sui)著大模型的風口下(xia)沉(chen),向量數(shu)據庫的投資概(gai)念還能飛多久,會(hui)不會(hui)倏忽而來,倏忽而去,留(liu)下(xia)喝(he)了“一(yi)嘴(zui)泡沫”的公司和(he)投資人,在風中凌亂呢(ni)?

我們就來好(hao)好(hao)品一品,這一杯啤酒和泡(pao)沫。

技(ji)術的啤酒

訓大模型、用大模型,離不開一(yi)系列AI基礎設施,所以,作為基礎設施之一(yi)的(de)向(xiang)量數據庫,確實有點(dian)東西。引入向(xiang)量數據庫,是能喝(he)到真材實料的(de)“啤酒”的(de)。

這就有必(bi)要先說說這個技術本身(shen)。

數(shu)據(ju)庫不用(yong)多說,是(shi)必不可少的(de)(de)IT基礎設施,用(yong)于(yu)存儲和查詢各種數(shu)據(ju),可以(yi)看作是(shi)數(shu)據(ju)的(de)(de)“硬盤”。那么,向(xiang)量數(shu)據(ju)庫就是(shi)更適(shi)合AI體質(zhi)的(de)(de)“硬盤”,有(you)幾個特質(zhi)來說明(ming)這一點:

1.必(bi)要性。

向(xiang)量數(shu)據(ju)庫,顧(gu)名(ming)思(si)義就是(shi)專門用(yong)于存儲和管理(li)向(xiang)量數(shu)據(ju)。作為(wei)一種數(shu)據(ju)結(jie)構(gou),每個向(xiang)量都包含多(duo)個維度,每個維度代表(biao)不(bu)同(tong)的(de)特征(zheng)或屬(shu)性,比如圖像的(de)顏色、文本詞匯的(de)出現頻率(lv)等。而(er)AI算(suan)法,要從圖像、音(yin)頻和文本等海量的(de)非結(jie)構(gou)化數(shu)據(ju)中學習(xi),提(ti)取出以向(xiang)量為(wei)表(biao)示形式的(de)“特征(zheng)”,以便模型(xing)能夠理(li)解和處理(li)。因此,向(xiang)量數(shu)據(ju)庫比傳(chuan)統的(de)關系型(xing)數(shu)據(ju)庫,更(geng)適合(he)AI應(ying)用(yong)。

向量數據庫這杯“啤酒”與“泡沫”

2.高效(xiao)率。

每(mei)個(ge)元素都(dou)有一(yi)個(ge)索引(yin),便于(yu)訪問或修(xiu)改數值。基于(yu)此,向量數據庫可以(yi)通過將分組和(he)索引(yin),快速找到(dao)與給定查詢最(zui)接近的(de)嵌入,實現高效(xiao)的(de)相似性搜索,同(tong)時減少(shao)存儲(chu)和(he)計(ji)算成(cheng)本(ben)。

相(xiang)比(bi)傳統單機插(cha)件式數(shu)據(ju)庫(ku),向量數(shu)據(ju)庫(ku)的檢索規模可以(yi)提升(sheng)十倍(bei),支持百萬級每秒查詢(xun)(QPS)的峰值能力,同時延遲(chi)控制在毫秒級。

想象一(yi)下,如果沒有高效(xiao)的(de)(de)搜索技(ji)術支(zhi)持(chi),一(yi)個(ge)大(da)(da)語言(yan)模(mo)型動輒數(shu)(shu)十億、上百億參數(shu)(shu),只能(neng)處理有限(xian)(xian)數(shu)(shu)量的(de)(de)輸(shu)入數(shu)(shu)據(ju),無法(fa)搜索更(geng)大(da)(da)的(de)(de)數(shu)(shu)據(ju)庫,那(nei)么在AIGC、搜索、廣告推薦(jian)算法(fa)等任(ren)務的(de)(de)性(xing)能(neng)表(biao)現就會受限(xian)(xian)。

一(yi)個公開數據是,通過使用云向量數據庫,QQ音樂人均聽歌時長提(ti)升(sheng)3.2%;騰訊(xun)視頻有(you)效(xiao)曝光人均時長提(ti)升(sheng)1.74%;QQ瀏覽器(qi)成本降(jiang)低37.9%,這些數據的變化就在于檢(jian)索效(xiao)率、運行穩定性、運營效(xiao)率、推薦算法(fa)等有(you)了較(jiao)大的提(ti)升(sheng)。

3.需(xu)求大。

隨著產業智能(neng)化的(de)(de)加速,以及大(da)模型和其他AI應(ying)用(yong)的(de)(de)爆發,各行各業的(de)(de)AI用(yong)例(li)(li)不(bu)斷增(zeng)多,由(you)此帶來了洶涌(yong)的(de)(de)數據(ju)洪潮和存算任務,向(xiang)(xiang)量數據(ju)庫嵌入向(xiang)(xiang)量的(de)(de)長度(du)不(bu)受限制,具有良好的(de)(de)擴展性,可(ke)以根據(ju)AI用(yong)例(li)(li)和模型而(er)變化,更好地處理大(da)規模數據(ju)集。

而(er)且(qie),向量(liang)(liang)數據(ju)庫可以(yi)拓展大模型的時間(jian)邊(bian)界和(he)空間(jian)邊(bian)界,讓大模型在訓練(lian)完成后(hou),也可以(yi)訪問(wen)向量(liang)(liang)數據(ju)庫的最新信息,了(le)解最近發(fa)生(sheng)的事情。

總的來說(shuo),向量(liang)數(shu)(shu)據庫就是更適合AI體質的數(shu)(shu)據庫,在AI任務(wu)上效果拔(ba)群,在機器學習領(ling)域中(zhong)日(ri)益流行。

那(nei)么(me)問題來了(le),一些(xie)在AI領域積淀已久的科(ke)技(ji)大廠,如(ru)谷歌、微軟、Mate以及(ji)BAT等大廠,都(dou)有向量數據庫(ku)的技(ji)術積累,也(ye)都(dou)可(ke)以向外輸出相關(guan)能力和產品。此外,一些(xie)基于開(kai)源技(ji)術的數據庫(ku)創(chuang)業公(gong)司,如(ru)Pinecone、Weaviate、Odrant、Chroma近年來打(da)開(kai)了(le)市場知(zhi)名度。

可(ke)以說(shuo),市場上并不缺乏向量(liang)數據庫的(de)(de)產(chan)品和解決(jue)方(fang)案。那么2023年,這杯(bei)技術啤酒,是怎么咕嘟(du)咕嘟(du)冒出泡沫(mo)的(de)(de)呢?

向量數據庫這杯“啤酒”與“泡沫”

浪潮之巔的泡(pao)沫

向(xiang)量數據庫的市場現狀(zhuang),說是“從0到1”,并不為(wei)過(guo)。

首先,大眾市場(chang)的認(ren)知度才剛(gang)剛(gang)打開(kai)。

此(ci)前,向量數(shu)據(ju)庫更多是AI企業(ye)在使用(yong),今年(nian)才開始為大眾(zhong)所熟知,這(zhe)離不開一些(xie)AI相關企業(ye)的推(tui)波助瀾。今年(nian)3月的NVIDIAGTC大會上,黃仁勛首次提及向量數(shu)據(ju)庫,強調向量數(shu)據(ju)庫對大語言模型的重(zhong)要性。

不是(shi)所(suo)(suo)有企業都(dou)有能力自建大模(mo)型(xing)所(suo)(suo)需(xu)要(yao)的(de)基礎(chu)設施(shi),通過MaaS(模(mo)型(xing)即服務(wu))業務(wu)來訓練(lian)應用大模(mo)型(xing)是(shi)更靈(ling)活的(de)選擇,這就要(yao)求云廠商(shang)提供全棧基礎(chu)設施(shi)。

百度(du)、京東、騰訊、華為(wei)等,都在自家的(de)(de)大模型完整基礎設施(shi)中,提到了向量數(shu)據庫(ku)。目前,云廠商的(de)(de)MaaS業(ye)務(wu)才剛剛開始(shi)走向市場,大模型的(de)(de)產(chan)業(ye)落地不是一(yi)蹴而(er)就的(de)(de),向量數(shu)據庫(ku)的(de)(de)接受度(du)和規(gui)模究竟(jing)有(you)多大,還是個未知數(shu)。

第二,向量數據庫的技術,還沒(mei)經歷(li)“卷生卷死”的迭(die)代。

Pinecone是(shi)閉源的(de)領(ling)跑者,其他競爭者要么(me)是(shi)開源的(de),比(bi)如Weviate,要么(me)是(shi)巨頭(tou),包括頭(tou)部云(yun)廠(chang)商(shang)(shang)和甲骨文、IBM等老(lao)牌數據庫廠(chang)商(shang)(shang),開始構建AI數據庫的(de)產品和解決方案。

大(da)廠扎堆競(jing)技(ji),這意味著,如果技(ji)術(shu)(shu)(shu)沒有大(da)的(de)突(tu)破,就會(hui)陷入高(gao)密(mi)度(du)的(de)同質化競(jing)爭,從(cong)藍海快速進(jin)入紅海。而如果技(ji)術(shu)(shu)(shu)有顛覆式(shi)變革,很多技(ji)術(shu)(shu)(shu)壁壘不(bu)高(gao)、客戶認知不(bu)強的(de)新(xin)入局創業者,很難跟(gen)開源生(sheng)態或技(ji)術(shu)(shu)(shu)巨頭PK,容易(yi)被(bei)大(da)浪淘沙。

最后(hou),向量數據庫的成本,還沒有降到“可規模復制”的程度。

無(wu)論是自建向量(liang)(liang)數據(ju)庫,還是通過MaaS服務(wu)接入,都還達(da)不到(dao)“付費(fei)可用”的(de)程度。一般來說,企(qi)(qi)業需要先(xian)將(jiang)非(fei)結構化的(de)私(si)密數據(ju)進行(xing)向量(liang)(liang)化,產生一個向量(liang)(liang)的(de)矩(ju)陣(zhen),再(zai)存儲(chu)到(dao)向量(liang)(liang)數據(ju)庫里(li),來供大模型(xing)學習和檢索。這個過程涉及到(dao)大量(liang)(liang)的(de)工程化,會耗費(fei)企(qi)(qi)業許多開發人員、時間成本。

這就需要云廠(chang)商或數(shu)據庫廠(chang)商,提供全鏈路的(de)(de)工具(ju),來幫助企業(ye)完成整個數(shu)據向量化、大(da)模型接入的(de)(de)工作,以及減少后續(xu)運維的(de)(de)難度(du)。比如(ru)Pinecone就憑借(jie)良(liang)好的(de)(de)開箱即用的(de)(de)產品體驗,獲得了非(fei)常大(da)的(de)(de)增長(chang),B輪估值達到7.5億美元。

谷歌云(yun)、騰訊(xun)云(yun)、京(jing)東云(yun)等也都基于內部(bu)應用(yong)的多年積累(lei),推出了(le)一系(xi)列面向(xiang)外(wai)部(bu)的工具、框架和應用(yong)。但只是(shi)邁出了(le)從無到有(you)的第一步,真正(zheng)成熟還(huan)需要讓各家(jia)“卷起來”。

可以看到(dao),現在這個階段,熱(re)捧向量數據庫(ku),確(que)實有(you)AIGC、大模型、云服務等多方(fang)面的(de)現實需求(qiu),但從“概念普及”到(dao)“真正(zheng)可用”之間(jian),還有(you)不短的(de)距離。這之間(jian)的(de)地(di)帶,就是泡沫生長的(de)地(di)方(fang)。

江湖路遠,風(feng)高浪(lang)急,沒有想清(qing)楚的創業公司或行(xing)業用(yong)戶,還是別貿然(ran)“帶(dai)資進組”了。

啜(chuo)飲時代的(de)精釀

如果你(ni)是數據(ju)庫廠商(shang),或者(zhe)是著急布局(ju)大模型和(he)AI應用的企業,希望早點將啤酒喝到嘴里,怎么辦(ban)呢?

篤定遠一點的(de)未來,有些賽(sai)道的(de)泡沫比例是相對(dui)少的(de),需求格(ge)外旺(wang)盛。

市場方面,國(guo)產(chan)化替代是不錯的選擇(ze)。

科技博弈(yi)背(bei)景下,加上我國數(shu)據庫產業(ye)(ye)的(de)(de)日益繁榮和(he)技術突破,金融、電信(xin)、能源、交通等關(guan)鍵基礎行業(ye)(ye)的(de)(de)企業(ye)(ye),在(zai)數(shu)據庫選(xuan)型時,都開始傾向于國產,以保(bao)障(zhang)數(shu)據的(de)(de)穩定性和(he)安全(quan)性。

國外廠商在向(xiang)量數(shu)據庫(ku)上有著更早的(de)探索和積累,國產數(shu)據庫(ku)要補齊短板(ban)是需(xu)要時間的(de)。

目前,BATH這類實力較強的(de)國內科技(ji)企業,沉淀了(le)向量數據庫(ku)(ku)的(de)核心自主技(ji)術,與其合作研發和定(ding)制化(hua)開發,針對某些(xie)具體場(chang)景(jing),提供特(te)定(ding)優化(hua)的(de)向量數據庫(ku)(ku)產品,加入國產化(hua)替代的(de)賽(sai)道是(shi)成本(ben)更低、風險更可(ke)控、市場(chang)需求(qiu)明(ming)確(que)的(de)選擇(ze)。

策略方面,加(jia)入云生態不要獨行。

鑒于向量(liang)數(shu)據庫(ku)的(de)商業化前景(jing)還(huan)不(bu)明朗,有業內人士表示,與(yu)其投資新(xin)的(de)向量(liang)數(shu)據庫(ku)項目,還(huan)不(bu)如關注現(xian)有數(shu)據庫(ku)中,有哪(na)些加上(shang)向量(liang)引擎可以變得更(geng)加強(qiang)大。

云(yun)數(shu)據庫(ku)就是其(qi)中之一,上云(yun)用數(shu)賦智是大勢所趨,很多政企客戶往往會選(xuan)擇(ze)公有云(yun)或行業(ye)云(yun)來(lai)滿足其(qi)業(ye)務需求(qiu),將數(shu)據遷移(yi)到云(yun)上,對(dui)云(yun)數(shu)據庫(ku)的關注度和接受度上升。

騰訊云(yun)(yun)、華為云(yun)(yun)等大型云(yun)(yun)廠(chang)商,具(ju)有(you)較(jiao)高(gao)的(de)(de)品牌認知度(du)和(he)市場接受度(du),具(ju)有(you)云(yun)(yun)原(yuan)生(sheng)、AI原(yuan)生(sheng)的(de)(de)技術棧和(he)產品體系,經(jing)歷了海量(liang)場景的(de)(de)淬煉和(he)深度(du)優化,和(he)這(zhe)類(lei)云(yun)(yun)生(sheng)態一(yi)起掘(jue)金向量(liang)數據庫,是更穩妥的(de)(de)方式。

和(he)AI、大(da)模型一樣,向量(liang)數(shu)(shu)據(ju)庫要品出味道,離(li)不開時間的窖藏和(he)醞(yun)釀。是(shi)在(zai)大(da)訓模型的熱(re)度下(xia)降后,像泡沫(mo)一樣湮滅,還(huan)是(shi)作為啤酒精釀沉淀下(xia)去,等(deng)待成為下(xia)一代數(shu)(shu)字基礎設施的剛(gang)需,被行(xing)業客(ke)戶(hu)所(suo)啜(chuo)飲,是(shi)留給數(shu)(shu)據(ju)庫玩家和(he)買家的選擇題。

AI 大模型 數(shu)據庫
評論
還可輸入300個字
專欄介紹
腦極體
43篇文章
你的困惑,來自于無路貼近未知。我們在技術、思想、傳播的異界,販來極限腦量下的TMT。
+關注
400-858-9000
免費服務熱線
郵箱
09:00--20:00
服務時間
投訴電話
投融界App下載
官方微信公眾號
官方微信小程序
Copyright ? 2024 浙江投融界科技有限公司(xxccv.cn) 版權所有 | ICP經營許可證:浙B2-20190547 | | 浙公網安備330號
地址:浙江省杭州市西湖區留下街道西溪路740號7號樓301室
浙江投融界科技有限公司xxccv.cn版權所有 | 用戶協議 | 隱私條款 | 用戶權限
應用版本:V2.7.8 | 更新日期:2022-01-21
 
在線客服
微信(xin)訂閱