繼ChatGPT上線一周年之后,近日,谷歌的多模態(tài)Gemini忽然上線,被業(yè)界視為“谷歌最強(qiáng)反擊戰(zhàn)開啟”。投資機(jī)構(gòu)針對Gemini的討論“炸開了鍋”。業(yè)內(nèi)人士認(rèn)為,Gemini在視覺識別和推理推斷方面有顯著優(yōu)化,落到商業(yè)場景上,實(shí)時(shí)交互場景或成為多模態(tài)人工智能模型應(yīng)用的焦點(diǎn)。
Gemini“太震撼”
近日,谷歌CEO桑達(dá)爾·皮查伊宣布Gemini1.0版正式上線。Google DeepMind產(chǎn)品副總裁伊萊·柯林斯表示,這是Google迄今為止功能最強(qiáng)大、最通用的大模型。
據(jù)了解,和市面上現(xiàn)有大模型相比,Gemini從一開始就被創(chuàng)建為多模態(tài)的模型,這意味著它可以歸納并流暢地理解、操作以及組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。在靈活度上,從數(shù)據(jù)中心到移動設(shè)備上,它都能夠運(yùn)行。
在觀看Gemini系列演示視頻后,不少投資人表示“太震撼”?!翱戳薌emini的演示視頻,其所表現(xiàn)出來的對多模態(tài)理解的能力非常驚人,此外,Gemini所表現(xiàn)出來的推理能力目前看來是超過ChatGPT的?!北本┼]電大學(xué)計(jì)算機(jī)學(xué)院副教授孫海峰表示,一方面,在多模態(tài)信息處理上,Gemini遠(yuǎn)超OpenAI的ChatGPT。Gemini既可以支持多模態(tài)信息輸入,也支持多模態(tài)信息輸出。Gemini一個(gè)典型的特點(diǎn)是支持文本、圖像、音頻和視頻的交錯序列作為輸入,這對于ChatGPT或者傳統(tǒng)架構(gòu)的多模態(tài)大模型來講,是很難實(shí)現(xiàn)的。通常來講,ChatGPT僅僅支持文字的輸出,其他模態(tài)的輸出需要調(diào)用第三方API來實(shí)現(xiàn)。Gemini這種交錯序列的輸入方式更符合絕大多數(shù)場景的需求。另一方面,在Gemini的技術(shù)報(bào)告中,其在MMLU數(shù)據(jù)集測試中的準(zhǔn)確率達(dá)到了90.04%,超過了人類專家,其推理能力的進(jìn)化具有里程碑意義。
在Gemini上線后的一天,谷歌被外界質(zhì)疑稱,多模態(tài)視頻是剪輯拼貼的,Gemini涉嫌夸大宣傳。谷歌官方也給予了解釋:視頻的確有后期制作和剪輯的成分,Gemini所有交互不是實(shí)時(shí)感知到,而是工作人員給予圖片和提示之后的效果,即Gemini在讀取視頻方面還有待進(jìn)一步發(fā)展。
實(shí)時(shí)交互場景或是商業(yè)化焦點(diǎn)
受此消息的影響,國內(nèi)投資人針對多模態(tài)技術(shù)及其應(yīng)用展開熱議。
某科技賽道的一級投資人表示,相較ChatGPT-4,Gemini的識圖和推理能力,以及目前看上去的響應(yīng)速度有很大進(jìn)步。他個(gè)人認(rèn)為,Gemini與OpenAI的產(chǎn)品各有千秋,商業(yè)化落地方面還需要找到合適的場景。“有合適的場景適配,并找到增值需求還是關(guān)鍵,但Gemini確實(shí)是將AI模型的想象空間進(jìn)一步打開了?!?/span>
“可以大膽想象,當(dāng)多模態(tài)模型運(yùn)行在機(jī)器人(11.640, -0.05, -0.43%)身上,可能實(shí)現(xiàn)具身智能,另外,當(dāng)多模態(tài)模型和谷歌眼鏡結(jié)合時(shí),或?qū)⑸墳槌壷悄荏w?!绷硪晃煌顿Y人表示。
某技術(shù)人士介紹,人類有五種感官,我們所建造的世界、所消費(fèi)的媒體,都是以這樣的方式所呈現(xiàn)。而多模態(tài)模型意味著Gemini可以用和人類一樣的方式理解周圍的世界,并且吸收任何類型的輸入和輸出——無論是文字,還是代碼、音頻、圖像、視頻。其中最關(guān)鍵的技術(shù),是如何混合所有這些模式,如何從任意數(shù)量的輸入和感官中收集盡可能多的數(shù)據(jù),然后給出同樣多樣化的響應(yīng)。
“Gemini更像人了,更貼近人的視覺識別和一些推理判斷,OpenAI的ChatGPT更多像一個(gè)大知識庫,它能夠給人提供信息參考。兩者不是誰超越誰,而是側(cè)重方向有顯著不同?!蹦惩顿Y人表示。
孫海峰表示,目前還不太清楚Gemini的具體實(shí)現(xiàn)結(jié)構(gòu)是什么樣的,但是這種對多種模態(tài)信息可以交錯序列作為輸入方式的模式,是許多場景、尤其是實(shí)時(shí)交互場景非常需要的。
另一位科技投資人認(rèn)為,Gemini的發(fā)布意味著大廠在人工智能方面具有先發(fā)優(yōu)勢更加確定,比如谷歌的Gemini視覺推理方面能力突出,是因?yàn)樗麄冇谢谒阉饕娴母鞣N資料作為大量的訓(xùn)練數(shù)據(jù)。此外,大廠在數(shù)據(jù)、流量、資金、算力以及應(yīng)用場景上的優(yōu)勢都很明顯。
來源:中證網(wǎng)