- 繪想游跡攻略指南,《原神》4.8繪想游跡凝光挑戰(zhàn)打法攻略
- 漫威卡組揭秘,《漫威終極逆轉(zhuǎn)》王奧丁卡組推薦
- 全新陣容揭秘,《朝歌》元始天尊主將陣容攻略
- 今日探秘,《光遇》2024年9月9日雪糕代幣位置
- 深入探索,《無期迷途》莓絲技能攻略
- 如何輕松解鎖,《劍網(wǎng)3手游》沈園地牢進(jìn)入方法
- 《原神》4.8繪想游跡迪盧克挑戰(zhàn)打法攻略
- 光遇每日福利,《光遇》2024年9月9日免費(fèi)魔法一覽
- 游戲攻略揭秘,《劍網(wǎng)3手游》大唐監(jiān)獄進(jìn)入方法
- 全新福利玩法上線,《閃耀暖暖》竹風(fēng)月影玩法介紹
聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
作者 | 劉寶丹
編輯 | 周智宇
初以來,DeepSeek引發(fā)的熱浪正推動AI行業(yè)加速落地,作為AI Infra的領(lǐng)軍企業(yè),聲網(wǎng)無疑是推動AI落地的重要推動力。
聲網(wǎng)AI RTE產(chǎn)品線負(fù)責(zé)人姚光華在接受華爾街見聞采訪時表示,除夕當(dāng)日,聲網(wǎng)開放了對話式AI引擎Private Beta版本的邀請測試,新增客戶數(shù)量超出預(yù)期,且多為行業(yè)龍頭。
近期,聲網(wǎng)正式發(fā)布對話式AI引擎,憑借650ms的超低延遲響應(yīng)、優(yōu)雅打斷、全模型適配等五大核心能力,該引擎可支持任意文本大模型快速升級為"能說會道"的對話式多模態(tài)大模型。同時,該引擎的價格也更具吸引力,僅需0.098元/分鐘。
這是全球首個對話式AI引擎,聲網(wǎng)產(chǎn)品負(fù)責(zé)人和利鵬指出,大模型技術(shù)的突破不僅推動了人機(jī)交互方式的革新,更在RTA賽道實(shí)現(xiàn)了重要跨越。此前,大模型主要以文字形式存在,而通過RTA技術(shù),大模型能夠?qū)崿F(xiàn)語音和視覺理解,極大地豐富了應(yīng)用場景,推動了更多落地應(yīng)用的出現(xiàn)。他們表示,AI技術(shù)帶來的機(jī)遇將超越移動互聯(lián)網(wǎng)時代。
聲網(wǎng)成立于2014年,專注于實(shí)時音視頻互動技術(shù)的研發(fā)與應(yīng)用。2024年第四季度,聲網(wǎng)母公司Agora實(shí)現(xiàn)營收3445萬美元,同比增長3.6%。目前,聲網(wǎng)已將AI技術(shù)研發(fā)作為企業(yè)戰(zhàn)略中的重點(diǎn)工程,持續(xù)加大投入力度。
在AI技術(shù)快速發(fā)展的今天,聲網(wǎng)正面臨難得的機(jī)遇期,必須全力以赴抓住這一歷史性機(jī)遇,實(shí)現(xiàn)跨越式發(fā)展。
搶占AI機(jī)遇
問:在這波AI浪潮中,聲網(wǎng)扮演了什么角色?
和利鵬:聲網(wǎng)是AI Infra的組成部分。過去的大模型只能接收文字信息,但現(xiàn)在我們希望讓大模型更了解你,不僅要聽你說,還要看你說,甚至能通過三維信息理解你。通過一維、二維、三維的信息處理,大模型將能更全面地理解用戶,從而提供更豐富的交流內(nèi)容。
問:聲網(wǎng)現(xiàn)在的核心競爭壁壘是什么?
和利鵬:聲網(wǎng)的核心競爭力在于人與人之間的實(shí)時互動,而未來將轉(zhuǎn)向人與機(jī)器的實(shí)時互動。基于之前的技術(shù)積累,我們能夠快速適應(yīng)這種轉(zhuǎn)變,并通過調(diào)整算法,將之前的能力進(jìn)行延展。
問:如果大模型廠商直接提供多模態(tài),你們是否會支持?海外在產(chǎn)業(yè)鏈分工方面做得比較清晰,各有專長。我們注意到,Open AI選擇了我們的合作伙伴,國內(nèi)的幾個模型廠商也選擇了與聲網(wǎng)合作。
從大模型廠商一開始就進(jìn)行交互設(shè)計,要求會比較高。多模態(tài)應(yīng)用需要另一種互聯(lián)網(wǎng)技術(shù),這會帶來延遲問題,可靠性無法完全保證。聲網(wǎng)在各個設(shè)備端都進(jìn)行了適配,已支持超過一萬種設(shè)備。如果大模型廠商現(xiàn)在來做,需要重新適配這些端,這對他們來說成本較高。
問:拓展AI新業(yè)務(wù),聲網(wǎng)內(nèi)部能夠給到多大的權(quán)限?有多大的魄力去做這件事情?
和利鵬:這個項(xiàng)目絕對是一號工程,高層直接推動。
這個賽道不是一時的熱潮,而是一個根本性的變革。我們已經(jīng)在這塊領(lǐng)域積累了經(jīng)驗(yàn)。簡單來說,AI作為公司的戰(zhàn)略投入是大勢所趨,已經(jīng)到了投資的時候。我們看到實(shí)際需求后會主動布局。
問:現(xiàn)在DeepSeek非?;鸨J(rèn)為企業(yè)接入DeepSeek是出于蹭熱度,還是長期的戰(zhàn)略投入?
和利鵬:我們經(jīng)歷過很多輪的熱點(diǎn)投資,AI的機(jī)會比移動互聯(lián)網(wǎng)更大,時機(jī)也比較成熟。客戶確實(shí)有實(shí)際需求,比如教育領(lǐng)域需求很明確,我們已經(jīng)在對接陪伴類和工具類的應(yīng)用。引入AI后,企業(yè)可以更高效地降本增效。DeepSeek的成本較低,準(zhǔn)確率較高,針對傳統(tǒng)企業(yè)大量存在的重復(fù)性勞動,AI應(yīng)用會越來越普遍。
問:你們是否嘗試過與DeepSeek進(jìn)行溝通與合作?
和利鵬:DeepSeek在何時會推出具備多模態(tài)能力的產(chǎn)品,這取決于他們的優(yōu)先級。如果他們專注于實(shí)時交互領(lǐng)域,很可能會與我們合作。未來,每個大模型都會發(fā)揮其獨(dú)特的優(yōu)勢和強(qiáng)項(xiàng),我們對話式引擎的設(shè)計理念是根據(jù)場景進(jìn)行實(shí)時調(diào)度,這是我們產(chǎn)品的核心理念。
AI需求超出預(yù)期
問:目前對話式AI引擎的市場反饋如何?
姚光華:我們除夕期間開放了Private Beta版本,邀請客戶進(jìn)行測試,但數(shù)據(jù)無法對外共享??梢哉f,反饋超出預(yù)期。我們會將未經(jīng)公開的成果直接分享給現(xiàn)有客戶,而新增的客戶也會因?yàn)槲覀兊姆e極反饋而表現(xiàn)出極大的興趣。
問:春節(jié)到現(xiàn)在,聲網(wǎng)的客戶類別有哪些變化?
和利鵬:我們內(nèi)部有十幾種主要場景,其中最活躍的是陪伴類,涵蓋社交娛樂、基于IoT設(shè)備的兒童陪伴、教育場景中的數(shù)字人、以及外呼和AI面試等。
姚光華:我們有一個新的需求,是為海外打電話訂餐的用戶設(shè)計的應(yīng)用。用戶可以通過手機(jī)點(diǎn)外賣,對面則是一個AI機(jī)器人,用戶點(diǎn)餐后,機(jī)器人可以直接在餐廳系統(tǒng)下單。
和利鵬:我們盡量提供各種能力,合作伙伴在開發(fā)創(chuàng)新的應(yīng)用場景。目前,關(guān)于AI爆款應(yīng)用,還沒有出現(xiàn)。我的理解是,目前處于創(chuàng)新階段的早期,大家都在進(jìn)行試驗(yàn),哪一天出現(xiàn)爆款應(yīng)用,就會帶來快速的增長。
問:如何看待實(shí)時互動市場的潛力?
和利鵬表示,AI大模型的出現(xiàn)推動了人和機(jī)器的交互方式,對于RTE賽道而言,這將是一個更廣闊的擴(kuò)展。過去,大模型主要以文字為媒介,但通過RTE技術(shù),大模型能夠?qū)崿F(xiàn)對文本的聽懂和看懂,從而使得應(yīng)用場景更加豐富,也會有更多的應(yīng)用得以落地。
他認(rèn)為,這次變革標(biāo)志著人機(jī)交互方式的重大轉(zhuǎn)變,從鍵盤和手機(jī)屏幕到未來的語音交互,傳統(tǒng)軟件領(lǐng)域的公司正在加速轉(zhuǎn)型,通過引入智能助手或音頻輸入功能來提升人機(jī)交互界面。這一變化也意味著人機(jī)交互的實(shí)時性要求更高,而語音交互正是這一變革的重要組成部分。
他還指出,目前的模型架構(gòu)多集中于云端,未來可能會與端云技術(shù)結(jié)合,而語音網(wǎng)絡(luò)也將更加注重實(shí)時性和覆蓋范圍,這些都將加速AI技術(shù)的快速迭代和行業(yè)發(fā)展的步伐。
問題:1分鐘內(nèi)不到1毛錢,未來這個市場規(guī)模會有多大?
和利鵬回答:人與人之間的互動是有限的,而人與機(jī)器的互動則更加廣泛,賽道的空間自然更大。盡管短期內(nèi)可能會有成本回收的壓力,但我們堅信這是一個長期的、巨大的機(jī)會。一旦看到這個機(jī)遇,我們就會迅速行動,以實(shí)現(xiàn)預(yù)期目標(biāo)。
問題:價格還有進(jìn)一步下調(diào)的可能嗎?
和利鵬表示:我們不一定會降價,首要任務(wù)是確保用戶體驗(yàn)的持續(xù)提升,為用戶帶來情感價值。我們更傾向于提高產(chǎn)品質(zhì)量,讓用戶覺得物有所值。如果有必要,我們會在價格基礎(chǔ)上進(jìn)行調(diào)整,但目前我們更關(guān)注核心競爭力的提升。
姚光華補(bǔ)充道:我們已經(jīng)將價格定得非常具有競爭力。
問題:對話式AI引擎從立項(xiàng)到落地的過程中,都遇到了哪些問題和瓶頸?是如何解決的?
和利鵬回答:在對話式AI引擎從規(guī)劃到實(shí)際應(yīng)用的過程中,會遇到技術(shù)實(shí)現(xiàn)、用戶反饋收集以及成本控制等方面的挑戰(zhàn)和瓶頸。我們通常會通過持續(xù)的技術(shù)迭代和用戶調(diào)研來逐步解決這些問題。
姚光華:對話式引擎涉及多個部門,包括算法、用戶體驗(yàn)、工程化、測試和產(chǎn)品管理等。年前,我們特意在“小黑屋”里加班加點(diǎn),一共加了十幾個人。等到DeepSeek項(xiàng)目結(jié)束后,我們做AI的團(tuán)隊(duì)所有人也都在加班,看到DeepSeek對中國的科技發(fā)展帶來的積極影響,我們希望能參與進(jìn)來,一起推動這種變革。
和利鵬:現(xiàn)在的產(chǎn)品開發(fā)過程是動態(tài)調(diào)整的,隨時會有潛在用戶提出需求,也會和友商展開競爭。我們的產(chǎn)品需要快速響應(yīng)和迭代。聲網(wǎng)已經(jīng)運(yùn)營了11年,一直專注于提升這種開發(fā)能力,尤其是在實(shí)時互動方面,我們非常有信心。
問:你們有沒有遇到過比較大的挑戰(zhàn)?
姚光華:實(shí)時互動需要將響應(yīng)延遲壓縮到毫秒級,之后還要繼續(xù)壓縮。我們給團(tuán)隊(duì)一個明確的目標(biāo),那就是打造世界一流水平的對話體驗(yàn),然后把這種體驗(yàn)轉(zhuǎn)化為產(chǎn)品。
和利鵬:對話式AI更注重體驗(yàn),包括延遲、打斷和人聲鎖定等指標(biāo)。在聲網(wǎng),我們實(shí)現(xiàn)了人與人之間的實(shí)時交流,而這次是人與機(jī)器的交流,交流模式發(fā)生了變化,技術(shù)要求也不同。我和你交流只需要分配網(wǎng)絡(luò),但遇到機(jī)器時,可能會有打斷和快速響應(yīng)的情況。在工程化方面,我們遇到了很多挑戰(zhàn)。
姚光華:AI用戶體驗(yàn)就像探索未知的領(lǐng)域,沒有人知道應(yīng)該關(guān)注哪些指標(biāo)。之前關(guān)于人聲鎖定這一點(diǎn),其實(shí)是客戶提出來的,不想失去實(shí)時打斷的能力,所以我們需要研發(fā)對話過濾功能。如果之前沒有降噪技術(shù),我們就得從零開始開發(fā)。我們把認(rèn)知轉(zhuǎn)化為標(biāo)準(zhǔn),把標(biāo)準(zhǔn)轉(zhuǎn)化為可測量的指標(biāo),現(xiàn)在的產(chǎn)品中已經(jīng)實(shí)現(xiàn)了這些。
問:在開發(fā)過程中,你們是如何處理Manus代碼構(gòu)成整個網(wǎng)絡(luò)步驟的?人機(jī)交互有什么區(qū)別?
和利鵬:人與機(jī)器的交互模式應(yīng)該是多模態(tài)的,實(shí)時互動非常重要。隨著行業(yè)的發(fā)展,我們一直在想,能不能不使用文字?語音可以包含情緒,所以信息會更加豐富。我覺得目前的模式可能可以改進(jìn),比如能不能直接看攝像頭?讓攝像頭完成一些任務(wù),比如審核簡歷,同時打開攝像頭和麥克風(fēng),還能不能做其他事情?這些都是我們比較關(guān)注的問題。
現(xiàn)在來看,Agent的形態(tài)和輸入方式都非常多樣化,未來可能會加入語音輸入,或者多人協(xié)作完成同一個任務(wù)。行業(yè)發(fā)展太快了,我們更應(yīng)該先打好基礎(chǔ),為創(chuàng)新創(chuàng)造環(huán)境。
姚光華:對話引擎之所以被稱為“引擎”,是因?yàn)槲覀儗W⒂跇?gòu)建對話式交互,而不是其他功能。我們覺得這是一種顛覆性的交互方式,如果對話的情緒價值和人類似乎,那么它就不僅僅是一個工具,而是一種能夠陪伴我們的伙伴,介于寵物和朋友之間。
問:Minimax模型、對話生成模型等對話產(chǎn)品都存在嚴(yán)重的幻覺問題,如何有效消除幻覺?
和利鵬:消除幻覺的過程需要模型自身的不斷進(jìn)化,但我們也需要關(guān)注外部的干擾因素。如果自身的聲音不夠清晰,也會影響到信息的傳遞。聲網(wǎng)系統(tǒng)需要精準(zhǔn)捕捉說話者的特征聲音,有效地去除背景噪音,讓原始聲音更加純凈。
幻覺無法完全消除,只能減少其影響。這就好比我們在采訪中,面對不同的人群,每個人之間的交流都可能產(chǎn)生誤解。但一旦發(fā)現(xiàn)誤解,可以通過提供更多的背景信息來澄清對方的錯誤。人與人之間的交流充滿了差異性,我們的知識背景和理解方式也存在差異,但通過多次溝通,我們能夠逐漸理解對方的意圖。
姚光華:我認(rèn)為模型參數(shù)量的精簡和聚焦在某一特定領(lǐng)域,可以有效減少幻覺。隨著模型復(fù)雜度的降低,其關(guān)注的領(lǐng)域也會更加專注,從而在信息處理上更加高效。
針對未來的應(yīng)用場景,推理與決策的參與變得至關(guān)重要。我們應(yīng)當(dāng)深入分析幻覺產(chǎn)生的根源,并及時指出對方的錯誤觀點(diǎn),引導(dǎo)其重新思考問題,最終達(dá)成共識。這是消除幻覺的唯一可行路徑。
這種方法會顯著影響實(shí)時互動的效果,就像自動駕駛技術(shù)需要即時反應(yīng),等待思維鏈的輸出并不現(xiàn)實(shí)。
和利鵬:在實(shí)際應(yīng)用中,我們需要根據(jù)不同的場景來選擇合適的解決方案。有些場景要求實(shí)時響應(yīng),無法存在等待時間。我們還接到了許多具身智能機(jī)器人相關(guān)的咨詢,這些場景對響應(yīng)時間的要求較高,包括客服外呼等,不能等待半天才進(jìn)行回復(fù)。因此,并非所有場景都需要采用聲網(wǎng)系統(tǒng),而是要根據(jù)具體需求選擇最合適的方案。
最近,智能硬件領(lǐng)域的需求顯著增加,我們與芯片設(shè)計廠商合作,開發(fā)出多種形態(tài)的產(chǎn)品,這些產(chǎn)品都集成有對話式AI技術(shù)。孩子們使用DeepSeek產(chǎn)品后,表現(xiàn)出極大的興趣,他們更關(guān)注互動的趣味性,而不在于答案的準(zhǔn)確性。
牛牛將牛肉放到正確位置解謎放置順序,《文字來找茬》牛肉歸位攻略 大贏家瘋了溫尚言跨界途道教育股價瘋狂漲勢,吳彥祖推出新英語課,398元,合作公司股價大漲! 藍(lán)空下的光影,有生之年,又被他治愈一次! 忙碌的黃圣依自由飛翔的光芒,黃圣依轉(zhuǎn)型成功,女明星破繭:婚姻不是終點(diǎn),事業(yè)才是底氣 《星球重啟》磁能模塊解謎技巧合集,《星球重啟》磁能鎖解謎攻略 夾子和勺子,《文字來找茬》火鍋?zhàn)灾P(guān)攻略 醫(yī)學(xué)知識,孕婦痔瘡怎么辦?健康課教會您正確的緩解方法 巴黎的朋友,久違的巴黎,久違的秀場 新任加拿大總理他將如何改變政策,特魯多黯然離場 加拿大新總理什么來頭? 《文字來找茬》演員女朋友道具拖放攻略,《文字來找茬》演員女朋友通關(guān)攻略