- 不可思議的對決之旅,《街霸4》用豪鬼打敗最難賽斯拿獎杯心得
- 探秘角色魅力,《公主連結(jié)Re:Dive》莫妮卡屬性解析
- 游戲體驗解析,《烏鴉小隊:藏刃行動》通關(guān)心得
- 深度角色解析,《公主連結(jié)Re:Dive》柊杏奈屬性簡介
- 驚艷瞬間,《街霸4》動畫春麗難得一見的一幕
- 深入角色背景,《公主連結(jié)Re:Dive》佐佐木咲戀屬性解析
- 重燃激情之旅,《街頭霸王4》XBOX360新手指南
- 揭開神秘面紗,《公主連結(jié)Re:Dive》姬塔屬性介紹
- “次世代視覺體驗”,《街霸4》XBOX360高清截圖
- 揭曉英雄奧秘,《小小軍團2》英雄介紹——潘多拉
聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
作者 | 劉寶丹
編輯 | 周智宇
初以來,DeepSeek引發(fā)的熱浪正推動AI行業(yè)加速落地,作為AI Infra的領(lǐng)軍企業(yè),聲網(wǎng)無疑是推動AI落地的重要推動力。
聲網(wǎng)AI RTE產(chǎn)品線負責人姚光華在接受華爾街見聞采訪時表示,除夕當日,聲網(wǎng)開放了對話式AI引擎Private Beta版本的邀請測試,新增客戶數(shù)量超出預期,且多為行業(yè)龍頭。
近期,聲網(wǎng)正式發(fā)布對話式AI引擎,憑借650ms的超低延遲響應、優(yōu)雅打斷、全模型適配等五大核心能力,該引擎可支持任意文本大模型快速升級為"能說會道"的對話式多模態(tài)大模型。同時,該引擎的價格也更具吸引力,僅需0.098元/分鐘。
這是全球首個對話式AI引擎,聲網(wǎng)產(chǎn)品負責人和利鵬指出,大模型技術(shù)的突破不僅推動了人機交互方式的革新,更在RTA賽道實現(xiàn)了重要跨越。此前,大模型主要以文字形式存在,而通過RTA技術(shù),大模型能夠?qū)崿F(xiàn)語音和視覺理解,極大地豐富了應用場景,推動了更多落地應用的出現(xiàn)。他們表示,AI技術(shù)帶來的機遇將超越移動互聯(lián)網(wǎng)時代。
聲網(wǎng)成立于2014年,專注于實時音視頻互動技術(shù)的研發(fā)與應用。2024年第四季度,聲網(wǎng)母公司Agora實現(xiàn)營收3445萬美元,同比增長3.6%。目前,聲網(wǎng)已將AI技術(shù)研發(fā)作為企業(yè)戰(zhàn)略中的重點工程,持續(xù)加大投入力度。
在AI技術(shù)快速發(fā)展的今天,聲網(wǎng)正面臨難得的機遇期,必須全力以赴抓住這一歷史性機遇,實現(xiàn)跨越式發(fā)展。
搶占AI機遇
問:在這波AI浪潮中,聲網(wǎng)扮演了什么角色?
和利鵬:聲網(wǎng)是AI Infra的組成部分。過去的大模型只能接收文字信息,但現(xiàn)在我們希望讓大模型更了解你,不僅要聽你說,還要看你說,甚至能通過三維信息理解你。通過一維、二維、三維的信息處理,大模型將能更全面地理解用戶,從而提供更豐富的交流內(nèi)容。
問:聲網(wǎng)現(xiàn)在的核心競爭壁壘是什么?
和利鵬:聲網(wǎng)的核心競爭力在于人與人之間的實時互動,而未來將轉(zhuǎn)向人與機器的實時互動?;谥暗募夹g(shù)積累,我們能夠快速適應這種轉(zhuǎn)變,并通過調(diào)整算法,將之前的能力進行延展。
問:如果大模型廠商直接提供多模態(tài),你們是否會支持?海外在產(chǎn)業(yè)鏈分工方面做得比較清晰,各有專長。我們注意到,Open AI選擇了我們的合作伙伴,國內(nèi)的幾個模型廠商也選擇了與聲網(wǎng)合作。
從大模型廠商一開始就進行交互設計,要求會比較高。多模態(tài)應用需要另一種互聯(lián)網(wǎng)技術(shù),這會帶來延遲問題,可靠性無法完全保證。聲網(wǎng)在各個設備端都進行了適配,已支持超過一萬種設備。如果大模型廠商現(xiàn)在來做,需要重新適配這些端,這對他們來說成本較高。
問:拓展AI新業(yè)務,聲網(wǎng)內(nèi)部能夠給到多大的權(quán)限?有多大的魄力去做這件事情?
和利鵬:這個項目絕對是一號工程,高層直接推動。
這個賽道不是一時的熱潮,而是一個根本性的變革。我們已經(jīng)在這塊領(lǐng)域積累了經(jīng)驗。簡單來說,AI作為公司的戰(zhàn)略投入是大勢所趨,已經(jīng)到了投資的時候。我們看到實際需求后會主動布局。
問:現(xiàn)在DeepSeek非常火爆,您認為企業(yè)接入DeepSeek是出于蹭熱度,還是長期的戰(zhàn)略投入?
和利鵬:我們經(jīng)歷過很多輪的熱點投資,AI的機會比移動互聯(lián)網(wǎng)更大,時機也比較成熟??蛻舸_實有實際需求,比如教育領(lǐng)域需求很明確,我們已經(jīng)在對接陪伴類和工具類的應用。引入AI后,企業(yè)可以更高效地降本增效。DeepSeek的成本較低,準確率較高,針對傳統(tǒng)企業(yè)大量存在的重復性勞動,AI應用會越來越普遍。
問:你們是否嘗試過與DeepSeek進行溝通與合作?
和利鵬:DeepSeek在何時會推出具備多模態(tài)能力的產(chǎn)品,這取決于他們的優(yōu)先級。如果他們專注于實時交互領(lǐng)域,很可能會與我們合作。未來,每個大模型都會發(fā)揮其獨特的優(yōu)勢和強項,我們對話式引擎的設計理念是根據(jù)場景進行實時調(diào)度,這是我們產(chǎn)品的核心理念。
AI需求超出預期
問:目前對話式AI引擎的市場反饋如何?
姚光華:我們除夕期間開放了Private Beta版本,邀請客戶進行測試,但數(shù)據(jù)無法對外共享??梢哉f,反饋超出預期。我們會將未經(jīng)公開的成果直接分享給現(xiàn)有客戶,而新增的客戶也會因為我們的積極反饋而表現(xiàn)出極大的興趣。
問:春節(jié)到現(xiàn)在,聲網(wǎng)的客戶類別有哪些變化?
和利鵬:我們內(nèi)部有十幾種主要場景,其中最活躍的是陪伴類,涵蓋社交娛樂、基于IoT設備的兒童陪伴、教育場景中的數(shù)字人、以及外呼和AI面試等。
姚光華:我們有一個新的需求,是為海外打電話訂餐的用戶設計的應用。用戶可以通過手機點外賣,對面則是一個AI機器人,用戶點餐后,機器人可以直接在餐廳系統(tǒng)下單。
和利鵬:我們盡量提供各種能力,合作伙伴在開發(fā)創(chuàng)新的應用場景。目前,關(guān)于AI爆款應用,還沒有出現(xiàn)。我的理解是,目前處于創(chuàng)新階段的早期,大家都在進行試驗,哪一天出現(xiàn)爆款應用,就會帶來快速的增長。
問:如何看待實時互動市場的潛力?
和利鵬表示,AI大模型的出現(xiàn)推動了人和機器的交互方式,對于RTE賽道而言,這將是一個更廣闊的擴展。過去,大模型主要以文字為媒介,但通過RTE技術(shù),大模型能夠?qū)崿F(xiàn)對文本的聽懂和看懂,從而使得應用場景更加豐富,也會有更多的應用得以落地。
他認為,這次變革標志著人機交互方式的重大轉(zhuǎn)變,從鍵盤和手機屏幕到未來的語音交互,傳統(tǒng)軟件領(lǐng)域的公司正在加速轉(zhuǎn)型,通過引入智能助手或音頻輸入功能來提升人機交互界面。這一變化也意味著人機交互的實時性要求更高,而語音交互正是這一變革的重要組成部分。
他還指出,目前的模型架構(gòu)多集中于云端,未來可能會與端云技術(shù)結(jié)合,而語音網(wǎng)絡也將更加注重實時性和覆蓋范圍,這些都將加速AI技術(shù)的快速迭代和行業(yè)發(fā)展的步伐。
問題:1分鐘內(nèi)不到1毛錢,未來這個市場規(guī)模會有多大?
和利鵬回答:人與人之間的互動是有限的,而人與機器的互動則更加廣泛,賽道的空間自然更大。盡管短期內(nèi)可能會有成本回收的壓力,但我們堅信這是一個長期的、巨大的機會。一旦看到這個機遇,我們就會迅速行動,以實現(xiàn)預期目標。
問題:價格還有進一步下調(diào)的可能嗎?
和利鵬表示:我們不一定會降價,首要任務是確保用戶體驗的持續(xù)提升,為用戶帶來情感價值。我們更傾向于提高產(chǎn)品質(zhì)量,讓用戶覺得物有所值。如果有必要,我們會在價格基礎(chǔ)上進行調(diào)整,但目前我們更關(guān)注核心競爭力的提升。
姚光華補充道:我們已經(jīng)將價格定得非常具有競爭力。
問題:對話式AI引擎從立項到落地的過程中,都遇到了哪些問題和瓶頸?是如何解決的?
和利鵬回答:在對話式AI引擎從規(guī)劃到實際應用的過程中,會遇到技術(shù)實現(xiàn)、用戶反饋收集以及成本控制等方面的挑戰(zhàn)和瓶頸。我們通常會通過持續(xù)的技術(shù)迭代和用戶調(diào)研來逐步解決這些問題。
姚光華:對話式引擎涉及多個部門,包括算法、用戶體驗、工程化、測試和產(chǎn)品管理等。年前,我們特意在“小黑屋”里加班加點,一共加了十幾個人。等到DeepSeek項目結(jié)束后,我們做AI的團隊所有人也都在加班,看到DeepSeek對中國的科技發(fā)展帶來的積極影響,我們希望能參與進來,一起推動這種變革。
和利鵬:現(xiàn)在的產(chǎn)品開發(fā)過程是動態(tài)調(diào)整的,隨時會有潛在用戶提出需求,也會和友商展開競爭。我們的產(chǎn)品需要快速響應和迭代。聲網(wǎng)已經(jīng)運營了11年,一直專注于提升這種開發(fā)能力,尤其是在實時互動方面,我們非常有信心。
問:你們有沒有遇到過比較大的挑戰(zhàn)?
姚光華:實時互動需要將響應延遲壓縮到毫秒級,之后還要繼續(xù)壓縮。我們給團隊一個明確的目標,那就是打造世界一流水平的對話體驗,然后把這種體驗轉(zhuǎn)化為產(chǎn)品。
和利鵬:對話式AI更注重體驗,包括延遲、打斷和人聲鎖定等指標。在聲網(wǎng),我們實現(xiàn)了人與人之間的實時交流,而這次是人與機器的交流,交流模式發(fā)生了變化,技術(shù)要求也不同。我和你交流只需要分配網(wǎng)絡,但遇到機器時,可能會有打斷和快速響應的情況。在工程化方面,我們遇到了很多挑戰(zhàn)。
姚光華:AI用戶體驗就像探索未知的領(lǐng)域,沒有人知道應該關(guān)注哪些指標。之前關(guān)于人聲鎖定這一點,其實是客戶提出來的,不想失去實時打斷的能力,所以我們需要研發(fā)對話過濾功能。如果之前沒有降噪技術(shù),我們就得從零開始開發(fā)。我們把認知轉(zhuǎn)化為標準,把標準轉(zhuǎn)化為可測量的指標,現(xiàn)在的產(chǎn)品中已經(jīng)實現(xiàn)了這些。
問:在開發(fā)過程中,你們是如何處理Manus代碼構(gòu)成整個網(wǎng)絡步驟的?人機交互有什么區(qū)別?
和利鵬:人與機器的交互模式應該是多模態(tài)的,實時互動非常重要。隨著行業(yè)的發(fā)展,我們一直在想,能不能不使用文字?語音可以包含情緒,所以信息會更加豐富。我覺得目前的模式可能可以改進,比如能不能直接看攝像頭?讓攝像頭完成一些任務,比如審核簡歷,同時打開攝像頭和麥克風,還能不能做其他事情?這些都是我們比較關(guān)注的問題。
現(xiàn)在來看,Agent的形態(tài)和輸入方式都非常多樣化,未來可能會加入語音輸入,或者多人協(xié)作完成同一個任務。行業(yè)發(fā)展太快了,我們更應該先打好基礎(chǔ),為創(chuàng)新創(chuàng)造環(huán)境。
姚光華:對話引擎之所以被稱為“引擎”,是因為我們專注于構(gòu)建對話式交互,而不是其他功能。我們覺得這是一種顛覆性的交互方式,如果對話的情緒價值和人類似乎,那么它就不僅僅是一個工具,而是一種能夠陪伴我們的伙伴,介于寵物和朋友之間。
問:Minimax模型、對話生成模型等對話產(chǎn)品都存在嚴重的幻覺問題,如何有效消除幻覺?
和利鵬:消除幻覺的過程需要模型自身的不斷進化,但我們也需要關(guān)注外部的干擾因素。如果自身的聲音不夠清晰,也會影響到信息的傳遞。聲網(wǎng)系統(tǒng)需要精準捕捉說話者的特征聲音,有效地去除背景噪音,讓原始聲音更加純凈。
幻覺無法完全消除,只能減少其影響。這就好比我們在采訪中,面對不同的人群,每個人之間的交流都可能產(chǎn)生誤解。但一旦發(fā)現(xiàn)誤解,可以通過提供更多的背景信息來澄清對方的錯誤。人與人之間的交流充滿了差異性,我們的知識背景和理解方式也存在差異,但通過多次溝通,我們能夠逐漸理解對方的意圖。
姚光華:我認為模型參數(shù)量的精簡和聚焦在某一特定領(lǐng)域,可以有效減少幻覺。隨著模型復雜度的降低,其關(guān)注的領(lǐng)域也會更加專注,從而在信息處理上更加高效。
針對未來的應用場景,推理與決策的參與變得至關(guān)重要。我們應當深入分析幻覺產(chǎn)生的根源,并及時指出對方的錯誤觀點,引導其重新思考問題,最終達成共識。這是消除幻覺的唯一可行路徑。
這種方法會顯著影響實時互動的效果,就像自動駕駛技術(shù)需要即時反應,等待思維鏈的輸出并不現(xiàn)實。
和利鵬:在實際應用中,我們需要根據(jù)不同的場景來選擇合適的解決方案。有些場景要求實時響應,無法存在等待時間。我們還接到了許多具身智能機器人相關(guān)的咨詢,這些場景對響應時間的要求較高,包括客服外呼等,不能等待半天才進行回復。因此,并非所有場景都需要采用聲網(wǎng)系統(tǒng),而是要根據(jù)具體需求選擇最合適的方案。
最近,智能硬件領(lǐng)域的需求顯著增加,我們與芯片設計廠商合作,開發(fā)出多種形態(tài)的產(chǎn)品,這些產(chǎn)品都集成有對話式AI技術(shù)。孩子們使用DeepSeek產(chǎn)品后,表現(xiàn)出極大的興趣,他們更關(guān)注互動的趣味性,而不在于答案的準確性。
琉璃珠獲取,《尋道大千》四只老鼠解鎖方法 加拿大總理選舉卡尼能否帶領(lǐng)加拿大度過經(jīng)濟挑戰(zhàn),特魯多黯然離場 加拿大新總理什么來頭? 一場關(guān)于頂級球場的對話,卡拉格盛贊伯納烏,期望阿諾德尚未親歷其fin 哪吒再創(chuàng)佳績,差評雖多,神作卻登全球票房冠軍榜 商業(yè)航天,全國人大代表張濤:鼓勵商業(yè)航天開拓國際市場 醫(yī)學科普護眼小技巧電子產(chǎn)品使用眼睛健康,陶勇:居家上網(wǎng)課,牢記12個護眼小貼士 韓國投資者買中國股票,韓國人,正“掃貨”中國股票 2024年證監(jiān)會調(diào)查東方集團財務造假,東方集團財務造假,大華會計師事務所頻繁受到關(guān)注 烏克蘭與美國的緊張局勢,烏軍前總司令扎盧日內(nèi):美國破壞國際秩序 上海浦東-阿布扎比航線開通,東方航空宣布,上海至阿布扎比航線將于4月28日正式通航。