- 行業(yè)龍頭即將上市,不差錢(qián)的東鵬赴港上市
- 黎萬(wàn)宏黃心穎幸福婚姻新年的幸福時(shí)刻,黃心穎否認(rèn)已孕,分享照片,50歲丈夫疼愛(ài)她,未計(jì)劃要孩子。
- 中俄關(guān)系新探索,王毅:中俄關(guān)系是動(dòng)蕩世界中的恒量
- 雅典娜月球任務(wù)傾覆提前終止,美國(guó)月球任務(wù)"雅典娜"著陸器著陸時(shí)側(cè)翻,任務(wù)提前結(jié)束。
- 為什么中年工作者在工作和健康之間這么難平衡,50歲后還能健康工作多久?研究給出答案
- NBA KD數(shù)據(jù)突破太陽(yáng)三連殺,太陽(yáng)隊(duì)三巨頭合計(jì)64分擊敗獨(dú)行俠,杜蘭特21+9+8Amazing超越德克歷史第八(說(shuō)明:這個(gè)改寫(xiě)版本:1. 將"太陽(yáng)三巨頭"改為更簡(jiǎn)潔的表述2. "64分"直接保留,"5連敗"簡(jiǎn)化為"擊敗獨(dú)行俠,5連敗"3. "杜蘭特21+9+8神跡"改為更流暢的表達(dá)4. "超越德克歷史第八"直接保留核心信息5. 整體語(yǔ)序調(diào)整,使其更符合新聞標(biāo)題的簡(jiǎn)潔風(fēng)格6. 保持了所有關(guān)鍵信息,同時(shí)提升了可讀性和吸引力)
- 空客訂單回暖,2025年2月,空客交付量降幅18%:行業(yè)觀察報(bào)告
- 俄烏沖突升級(jí),特朗普憤怒,德國(guó)或迎來(lái)1萬(wàn)美軍撤后立即感到衛(wèi)星服務(wù)消失,1萬(wàn)名烏軍面臨被包圍的危險(xiǎn),波蘭急推憲法修正案強(qiáng)化國(guó)防。
- 黑絲攻擊技巧輕松應(yīng)對(duì)黑絲,怪物獵人荒野黑絲怎么打-盾斧打黑絲方法解析
- 匈牙利總理呼吁歐盟直接談判放棄3月6日峰會(huì)議議,匈牙利總理敦促歐盟與俄羅斯直接談判
聲明:本文來(lái)自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
作者 | 劉寶丹
編輯 | 周智宇
初以來(lái),DeepSeek引發(fā)的熱浪正推動(dòng)AI行業(yè)加速落地,作為AI Infra的領(lǐng)軍企業(yè),聲網(wǎng)無(wú)疑是推動(dòng)AI落地的重要推動(dòng)力。
聲網(wǎng)AI RTE產(chǎn)品線負(fù)責(zé)人姚光華在接受華爾街見(jiàn)聞采訪時(shí)表示,除夕當(dāng)日,聲網(wǎng)開(kāi)放了對(duì)話式AI引擎Private Beta版本的邀請(qǐng)測(cè)試,新增客戶數(shù)量超出預(yù)期,且多為行業(yè)龍頭。
近期,聲網(wǎng)正式發(fā)布對(duì)話式AI引擎,憑借650ms的超低延遲響應(yīng)、優(yōu)雅打斷、全模型適配等五大核心能力,該引擎可支持任意文本大模型快速升級(jí)為"能說(shuō)會(huì)道"的對(duì)話式多模態(tài)大模型。同時(shí),該引擎的價(jià)格也更具吸引力,僅需0.098元/分鐘。
這是全球首個(gè)對(duì)話式AI引擎,聲網(wǎng)產(chǎn)品負(fù)責(zé)人和利鵬指出,大模型技術(shù)的突破不僅推動(dòng)了人機(jī)交互方式的革新,更在RTA賽道實(shí)現(xiàn)了重要跨越。此前,大模型主要以文字形式存在,而通過(guò)RTA技術(shù),大模型能夠?qū)崿F(xiàn)語(yǔ)音和視覺(jué)理解,極大地豐富了應(yīng)用場(chǎng)景,推動(dòng)了更多落地應(yīng)用的出現(xiàn)。他們表示,AI技術(shù)帶來(lái)的機(jī)遇將超越移動(dòng)互聯(lián)網(wǎng)時(shí)代。
聲網(wǎng)成立于2014年,專注于實(shí)時(shí)音視頻互動(dòng)技術(shù)的研發(fā)與應(yīng)用。2024年第四季度,聲網(wǎng)母公司Agora實(shí)現(xiàn)營(yíng)收3445萬(wàn)美元,同比增長(zhǎng)3.6%。目前,聲網(wǎng)已將AI技術(shù)研發(fā)作為企業(yè)戰(zhàn)略中的重點(diǎn)工程,持續(xù)加大投入力度。
在AI技術(shù)快速發(fā)展的今天,聲網(wǎng)正面臨難得的機(jī)遇期,必須全力以赴抓住這一歷史性機(jī)遇,實(shí)現(xiàn)跨越式發(fā)展。
搶占AI機(jī)遇
問(wèn):在這波AI浪潮中,聲網(wǎng)扮演了什么角色?
和利鵬:聲網(wǎng)是AI Infra的組成部分。過(guò)去的大模型只能接收文字信息,但現(xiàn)在我們希望讓大模型更了解你,不僅要聽(tīng)你說(shuō),還要看你說(shuō),甚至能通過(guò)三維信息理解你。通過(guò)一維、二維、三維的信息處理,大模型將能更全面地理解用戶,從而提供更豐富的交流內(nèi)容。
問(wèn):聲網(wǎng)現(xiàn)在的核心競(jìng)爭(zhēng)壁壘是什么?
和利鵬:聲網(wǎng)的核心競(jìng)爭(zhēng)力在于人與人之間的實(shí)時(shí)互動(dòng),而未來(lái)將轉(zhuǎn)向人與機(jī)器的實(shí)時(shí)互動(dòng)?;谥暗募夹g(shù)積累,我們能夠快速適應(yīng)這種轉(zhuǎn)變,并通過(guò)調(diào)整算法,將之前的能力進(jìn)行延展。
問(wèn):如果大模型廠商直接提供多模態(tài),你們是否會(huì)支持?海外在產(chǎn)業(yè)鏈分工方面做得比較清晰,各有專長(zhǎng)。我們注意到,Open AI選擇了我們的合作伙伴,國(guó)內(nèi)的幾個(gè)模型廠商也選擇了與聲網(wǎng)合作。
從大模型廠商一開(kāi)始就進(jìn)行交互設(shè)計(jì),要求會(huì)比較高。多模態(tài)應(yīng)用需要另一種互聯(lián)網(wǎng)技術(shù),這會(huì)帶來(lái)延遲問(wèn)題,可靠性無(wú)法完全保證。聲網(wǎng)在各個(gè)設(shè)備端都進(jìn)行了適配,已支持超過(guò)一萬(wàn)種設(shè)備。如果大模型廠商現(xiàn)在來(lái)做,需要重新適配這些端,這對(duì)他們來(lái)說(shuō)成本較高。
問(wèn):拓展AI新業(yè)務(wù),聲網(wǎng)內(nèi)部能夠給到多大的權(quán)限?有多大的魄力去做這件事情?
和利鵬:這個(gè)項(xiàng)目絕對(duì)是一號(hào)工程,高層直接推動(dòng)。
這個(gè)賽道不是一時(shí)的熱潮,而是一個(gè)根本性的變革。我們已經(jīng)在這塊領(lǐng)域積累了經(jīng)驗(yàn)。簡(jiǎn)單來(lái)說(shuō),AI作為公司的戰(zhàn)略投入是大勢(shì)所趨,已經(jīng)到了投資的時(shí)候。我們看到實(shí)際需求后會(huì)主動(dòng)布局。
問(wèn):現(xiàn)在DeepSeek非?;鸨?,您認(rèn)為企業(yè)接入DeepSeek是出于蹭熱度,還是長(zhǎng)期的戰(zhàn)略投入?
和利鵬:我們經(jīng)歷過(guò)很多輪的熱點(diǎn)投資,AI的機(jī)會(huì)比移動(dòng)互聯(lián)網(wǎng)更大,時(shí)機(jī)也比較成熟。客戶確實(shí)有實(shí)際需求,比如教育領(lǐng)域需求很明確,我們已經(jīng)在對(duì)接陪伴類和工具類的應(yīng)用。引入AI后,企業(yè)可以更高效地降本增效。DeepSeek的成本較低,準(zhǔn)確率較高,針對(duì)傳統(tǒng)企業(yè)大量存在的重復(fù)性勞動(dòng),AI應(yīng)用會(huì)越來(lái)越普遍。
問(wèn):你們是否嘗試過(guò)與DeepSeek進(jìn)行溝通與合作?
和利鵬:DeepSeek在何時(shí)會(huì)推出具備多模態(tài)能力的產(chǎn)品,這取決于他們的優(yōu)先級(jí)。如果他們專注于實(shí)時(shí)交互領(lǐng)域,很可能會(huì)與我們合作。未來(lái),每個(gè)大模型都會(huì)發(fā)揮其獨(dú)特的優(yōu)勢(shì)和強(qiáng)項(xiàng),我們對(duì)話式引擎的設(shè)計(jì)理念是根據(jù)場(chǎng)景進(jìn)行實(shí)時(shí)調(diào)度,這是我們產(chǎn)品的核心理念。
AI需求超出預(yù)期
問(wèn):目前對(duì)話式AI引擎的市場(chǎng)反饋如何?
姚光華:我們除夕期間開(kāi)放了Private Beta版本,邀請(qǐng)客戶進(jìn)行測(cè)試,但數(shù)據(jù)無(wú)法對(duì)外共享??梢哉f(shuō),反饋超出預(yù)期。我們會(huì)將未經(jīng)公開(kāi)的成果直接分享給現(xiàn)有客戶,而新增的客戶也會(huì)因?yàn)槲覀兊姆e極反饋而表現(xiàn)出極大的興趣。
問(wèn):春節(jié)到現(xiàn)在,聲網(wǎng)的客戶類別有哪些變化?
和利鵬:我們內(nèi)部有十幾種主要場(chǎng)景,其中最活躍的是陪伴類,涵蓋社交娛樂(lè)、基于IoT設(shè)備的兒童陪伴、教育場(chǎng)景中的數(shù)字人、以及外呼和AI面試等。
姚光華:我們有一個(gè)新的需求,是為海外打電話訂餐的用戶設(shè)計(jì)的應(yīng)用。用戶可以通過(guò)手機(jī)點(diǎn)外賣(mài),對(duì)面則是一個(gè)AI機(jī)器人,用戶點(diǎn)餐后,機(jī)器人可以直接在餐廳系統(tǒng)下單。
和利鵬:我們盡量提供各種能力,合作伙伴在開(kāi)發(fā)創(chuàng)新的應(yīng)用場(chǎng)景。目前,關(guān)于AI爆款應(yīng)用,還沒(méi)有出現(xiàn)。我的理解是,目前處于創(chuàng)新階段的早期,大家都在進(jìn)行試驗(yàn),哪一天出現(xiàn)爆款應(yīng)用,就會(huì)帶來(lái)快速的增長(zhǎng)。
問(wèn):如何看待實(shí)時(shí)互動(dòng)市場(chǎng)的潛力?
和利鵬表示,AI大模型的出現(xiàn)推動(dòng)了人和機(jī)器的交互方式,對(duì)于RTE賽道而言,這將是一個(gè)更廣闊的擴(kuò)展。過(guò)去,大模型主要以文字為媒介,但通過(guò)RTE技術(shù),大模型能夠?qū)崿F(xiàn)對(duì)文本的聽(tīng)懂和看懂,從而使得應(yīng)用場(chǎng)景更加豐富,也會(huì)有更多的應(yīng)用得以落地。
他認(rèn)為,這次變革標(biāo)志著人機(jī)交互方式的重大轉(zhuǎn)變,從鍵盤(pán)和手機(jī)屏幕到未來(lái)的語(yǔ)音交互,傳統(tǒng)軟件領(lǐng)域的公司正在加速轉(zhuǎn)型,通過(guò)引入智能助手或音頻輸入功能來(lái)提升人機(jī)交互界面。這一變化也意味著人機(jī)交互的實(shí)時(shí)性要求更高,而語(yǔ)音交互正是這一變革的重要組成部分。
他還指出,目前的模型架構(gòu)多集中于云端,未來(lái)可能會(huì)與端云技術(shù)結(jié)合,而語(yǔ)音網(wǎng)絡(luò)也將更加注重實(shí)時(shí)性和覆蓋范圍,這些都將加速AI技術(shù)的快速迭代和行業(yè)發(fā)展的步伐。
問(wèn)題:1分鐘內(nèi)不到1毛錢(qián),未來(lái)這個(gè)市場(chǎng)規(guī)模會(huì)有多大?
和利鵬回答:人與人之間的互動(dòng)是有限的,而人與機(jī)器的互動(dòng)則更加廣泛,賽道的空間自然更大。盡管短期內(nèi)可能會(huì)有成本回收的壓力,但我們堅(jiān)信這是一個(gè)長(zhǎng)期的、巨大的機(jī)會(huì)。一旦看到這個(gè)機(jī)遇,我們就會(huì)迅速行動(dòng),以實(shí)現(xiàn)預(yù)期目標(biāo)。
問(wèn)題:價(jià)格還有進(jìn)一步下調(diào)的可能嗎?
和利鵬表示:我們不一定會(huì)降價(jià),首要任務(wù)是確保用戶體驗(yàn)的持續(xù)提升,為用戶帶來(lái)情感價(jià)值。我們更傾向于提高產(chǎn)品質(zhì)量,讓用戶覺(jué)得物有所值。如果有必要,我們會(huì)在價(jià)格基礎(chǔ)上進(jìn)行調(diào)整,但目前我們更關(guān)注核心競(jìng)爭(zhēng)力的提升。
姚光華補(bǔ)充道:我們已經(jīng)將價(jià)格定得非常具有競(jìng)爭(zhēng)力。
問(wèn)題:對(duì)話式AI引擎從立項(xiàng)到落地的過(guò)程中,都遇到了哪些問(wèn)題和瓶頸?是如何解決的?
和利鵬回答:在對(duì)話式AI引擎從規(guī)劃到實(shí)際應(yīng)用的過(guò)程中,會(huì)遇到技術(shù)實(shí)現(xiàn)、用戶反饋收集以及成本控制等方面的挑戰(zhàn)和瓶頸。我們通常會(huì)通過(guò)持續(xù)的技術(shù)迭代和用戶調(diào)研來(lái)逐步解決這些問(wèn)題。
姚光華:對(duì)話式引擎涉及多個(gè)部門(mén),包括算法、用戶體驗(yàn)、工程化、測(cè)試和產(chǎn)品管理等。年前,我們特意在“小黑屋”里加班加點(diǎn),一共加了十幾個(gè)人。等到DeepSeek項(xiàng)目結(jié)束后,我們做AI的團(tuán)隊(duì)所有人也都在加班,看到DeepSeek對(duì)中國(guó)的科技發(fā)展帶來(lái)的積極影響,我們希望能參與進(jìn)來(lái),一起推動(dòng)這種變革。
和利鵬:現(xiàn)在的產(chǎn)品開(kāi)發(fā)過(guò)程是動(dòng)態(tài)調(diào)整的,隨時(shí)會(huì)有潛在用戶提出需求,也會(huì)和友商展開(kāi)競(jìng)爭(zhēng)。我們的產(chǎn)品需要快速響應(yīng)和迭代。聲網(wǎng)已經(jīng)運(yùn)營(yíng)了11年,一直專注于提升這種開(kāi)發(fā)能力,尤其是在實(shí)時(shí)互動(dòng)方面,我們非常有信心。
問(wèn):你們有沒(méi)有遇到過(guò)比較大的挑戰(zhàn)?
姚光華:實(shí)時(shí)互動(dòng)需要將響應(yīng)延遲壓縮到毫秒級(jí),之后還要繼續(xù)壓縮。我們給團(tuán)隊(duì)一個(gè)明確的目標(biāo),那就是打造世界一流水平的對(duì)話體驗(yàn),然后把這種體驗(yàn)轉(zhuǎn)化為產(chǎn)品。
和利鵬:對(duì)話式AI更注重體驗(yàn),包括延遲、打斷和人聲鎖定等指標(biāo)。在聲網(wǎng),我們實(shí)現(xiàn)了人與人之間的實(shí)時(shí)交流,而這次是人與機(jī)器的交流,交流模式發(fā)生了變化,技術(shù)要求也不同。我和你交流只需要分配網(wǎng)絡(luò),但遇到機(jī)器時(shí),可能會(huì)有打斷和快速響應(yīng)的情況。在工程化方面,我們遇到了很多挑戰(zhàn)。
姚光華:AI用戶體驗(yàn)就像探索未知的領(lǐng)域,沒(méi)有人知道應(yīng)該關(guān)注哪些指標(biāo)。之前關(guān)于人聲鎖定這一點(diǎn),其實(shí)是客戶提出來(lái)的,不想失去實(shí)時(shí)打斷的能力,所以我們需要研發(fā)對(duì)話過(guò)濾功能。如果之前沒(méi)有降噪技術(shù),我們就得從零開(kāi)始開(kāi)發(fā)。我們把認(rèn)知轉(zhuǎn)化為標(biāo)準(zhǔn),把標(biāo)準(zhǔn)轉(zhuǎn)化為可測(cè)量的指標(biāo),現(xiàn)在的產(chǎn)品中已經(jīng)實(shí)現(xiàn)了這些。
問(wèn):在開(kāi)發(fā)過(guò)程中,你們是如何處理Manus代碼構(gòu)成整個(gè)網(wǎng)絡(luò)步驟的?人機(jī)交互有什么區(qū)別?
和利鵬:人與機(jī)器的交互模式應(yīng)該是多模態(tài)的,實(shí)時(shí)互動(dòng)非常重要。隨著行業(yè)的發(fā)展,我們一直在想,能不能不使用文字?語(yǔ)音可以包含情緒,所以信息會(huì)更加豐富。我覺(jué)得目前的模式可能可以改進(jìn),比如能不能直接看攝像頭?讓攝像頭完成一些任務(wù),比如審核簡(jiǎn)歷,同時(shí)打開(kāi)攝像頭和麥克風(fēng),還能不能做其他事情?這些都是我們比較關(guān)注的問(wèn)題。
現(xiàn)在來(lái)看,Agent的形態(tài)和輸入方式都非常多樣化,未來(lái)可能會(huì)加入語(yǔ)音輸入,或者多人協(xié)作完成同一個(gè)任務(wù)。行業(yè)發(fā)展太快了,我們更應(yīng)該先打好基礎(chǔ),為創(chuàng)新創(chuàng)造環(huán)境。
姚光華:對(duì)話引擎之所以被稱為“引擎”,是因?yàn)槲覀儗W⒂跇?gòu)建對(duì)話式交互,而不是其他功能。我們覺(jué)得這是一種顛覆性的交互方式,如果對(duì)話的情緒價(jià)值和人類似乎,那么它就不僅僅是一個(gè)工具,而是一種能夠陪伴我們的伙伴,介于寵物和朋友之間。
問(wèn):Minimax模型、對(duì)話生成模型等對(duì)話產(chǎn)品都存在嚴(yán)重的幻覺(jué)問(wèn)題,如何有效消除幻覺(jué)?
和利鵬:消除幻覺(jué)的過(guò)程需要模型自身的不斷進(jìn)化,但我們也需要關(guān)注外部的干擾因素。如果自身的聲音不夠清晰,也會(huì)影響到信息的傳遞。聲網(wǎng)系統(tǒng)需要精準(zhǔn)捕捉說(shuō)話者的特征聲音,有效地去除背景噪音,讓原始聲音更加純凈。
幻覺(jué)無(wú)法完全消除,只能減少其影響。這就好比我們?cè)诓稍L中,面對(duì)不同的人群,每個(gè)人之間的交流都可能產(chǎn)生誤解。但一旦發(fā)現(xiàn)誤解,可以通過(guò)提供更多的背景信息來(lái)澄清對(duì)方的錯(cuò)誤。人與人之間的交流充滿了差異性,我們的知識(shí)背景和理解方式也存在差異,但通過(guò)多次溝通,我們能夠逐漸理解對(duì)方的意圖。
姚光華:我認(rèn)為模型參數(shù)量的精簡(jiǎn)和聚焦在某一特定領(lǐng)域,可以有效減少幻覺(jué)。隨著模型復(fù)雜度的降低,其關(guān)注的領(lǐng)域也會(huì)更加專注,從而在信息處理上更加高效。
針對(duì)未來(lái)的應(yīng)用場(chǎng)景,推理與決策的參與變得至關(guān)重要。我們應(yīng)當(dāng)深入分析幻覺(jué)產(chǎn)生的根源,并及時(shí)指出對(duì)方的錯(cuò)誤觀點(diǎn),引導(dǎo)其重新思考問(wèn)題,最終達(dá)成共識(shí)。這是消除幻覺(jué)的唯一可行路徑。
這種方法會(huì)顯著影響實(shí)時(shí)互動(dòng)的效果,就像自動(dòng)駕駛技術(shù)需要即時(shí)反應(yīng),等待思維鏈的輸出并不現(xiàn)實(shí)。
和利鵬:在實(shí)際應(yīng)用中,我們需要根據(jù)不同的場(chǎng)景來(lái)選擇合適的解決方案。有些場(chǎng)景要求實(shí)時(shí)響應(yīng),無(wú)法存在等待時(shí)間。我們還接到了許多具身智能機(jī)器人相關(guān)的咨詢,這些場(chǎng)景對(duì)響應(yīng)時(shí)間的要求較高,包括客服外呼等,不能等待半天才進(jìn)行回復(fù)。因此,并非所有場(chǎng)景都需要采用聲網(wǎng)系統(tǒng),而是要根據(jù)具體需求選擇最合適的方案。
最近,智能硬件領(lǐng)域的需求顯著增加,我們與芯片設(shè)計(jì)廠商合作,開(kāi)發(fā)出多種形態(tài)的產(chǎn)品,這些產(chǎn)品都集成有對(duì)話式AI技術(shù)。孩子們使用DeepSeek產(chǎn)品后,表現(xiàn)出極大的興趣,他們更關(guān)注互動(dòng)的趣味性,而不在于答案的準(zhǔn)確性。
釣大魚(yú)的高難度技巧,怪物獵人釣魚(yú)大魚(yú)技巧分享 白晝跳轉(zhuǎn)快速獲取滿月天塹沙原一夜花,怪物獵人荒野刷滿月方法介紹 快速下載《血腥角斗2》,GORN 2下載安裝指南 荒野挑戰(zhàn)夜晚捕獲暗影蜂的秘密,暗照蜂如何獲取及技巧解析 Strategic Partnership Between ASML and imec ,ASML、imec達(dá)成五年戰(zhàn)略合作,聚焦先進(jìn)工藝與可持續(xù)發(fā)展 懸賞追捕杜特爾特,菲律賓:杜特爾特被捕否認(rèn),如被捕無(wú)計(jì)可施 下載挑戰(zhàn)征服黑暗,Conquest Dark安裝指南:如何輕松下載 閃光彈的秘密輕松捕捉路旁光蟲(chóng),怪物獵人:荒野光蟲(chóng)光蟲(chóng)收集方法 調(diào)制秘藥調(diào)制素材注意事項(xiàng)及緋紅森林荒蕪期夜晚通向天塹沙原的路,怪物獵人:荒野之息苦蟲(chóng)收集方法 專列直飛每周四班,東方航空直飛阿布扎比航線正式開(kāi)通,4月28日起班機(jī)將定期往返上海與阿布扎比。