- 戰(zhàn)略要地如何防守與升級(jí),《變形金剛:地球之戰(zhàn)》總部圖鑒介紹
- 戰(zhàn)略布局揭秘,《變形金剛:地球之戰(zhàn)》地空導(dǎo)彈圖鑒介紹
- 升級(jí)策略揭秘,《變形金剛:地球之戰(zhàn)》電磁塔圖鑒介紹
- 震撼激戰(zhàn)揭秘,《變形金剛:地球之戰(zhàn)》激光束圖鑒介紹
- 優(yōu)化升級(jí)策略,《變形金剛:地球之戰(zhàn)》暈眩地雷圖鑒介紹
- 火力深度揭秘,《變形金剛:地球之戰(zhàn)》迫擊炮圖鑒介紹
- 揭秘強(qiáng)力武器,《變形金剛:地球之戰(zhàn)》鐳射炮圖鑒介紹
- 策略大師指南,《變形金剛:地球之戰(zhàn)》哨站圖鑒介紹
- 探索奇妙建筑,《變形金剛:地球之戰(zhàn)》13號(hào)礦石庫(kù)圖鑒
- 揭秘全新建筑功能,《變形金剛:地球之戰(zhàn)》13號(hào)礦石采集器介紹
聲明:本文來(lái)自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
小編|何己派
作者|鄢子為
上海一家公司,幫助DeepSeek像真人一樣開(kāi)口說(shuō)話。
3月中旬,聲網(wǎng)發(fā)布對(duì)話式AI引擎,只需兩行代碼,15分鐘,即可讓任意文本大模型"能說(shuō)會(huì)道"。
這是一個(gè)"新物種"。
按團(tuán)隊(duì)所述,它擁有多項(xiàng)獨(dú)特功能,全球范圍內(nèi)找不到可比的。對(duì)話一分鐘,成本不到一分錢(qián)。
"過(guò)去,大模型只能接受文字輸入,未來(lái),我們將讓大模型明白你。"聲網(wǎng)產(chǎn)品線負(fù)責(zé)人和利鵬表示。
為了這次的新產(chǎn)品,聲網(wǎng)AI RTE產(chǎn)品線負(fù)責(zé)人姚光華向《21CBR》記者透露,從春節(jié)開(kāi)始,公司瘋狂趕工,如同備戰(zhàn)高考,2月18日推出Public Beta版本,這次發(fā)布已達(dá)到可商用狀態(tài)。
截至3月7日美股收盤(pán),聲網(wǎng)市值為36億元人民幣。
黑屋作戰(zhàn)
DeepSeek的爆火期間,聲網(wǎng)的產(chǎn)品團(tuán)隊(duì)悄然部署了一場(chǎng)戰(zhàn)略行動(dòng)。
春節(jié)前夕,聲網(wǎng)協(xié)調(diào)各職能部門(mén)的十幾位核心骨干,組建了一個(gè)核心團(tuán)隊(duì), sole mission 是打造一款能夠?qū)崿F(xiàn)與AI實(shí)時(shí)互動(dòng)的工具產(chǎn)品。
這個(gè)主意早在半年前就已醞釀,順應(yīng)DeepSeek發(fā)起的這場(chǎng)輿論風(fēng)暴,項(xiàng)目加速推進(jìn)。
團(tuán)隊(duì)成員形容,大家被關(guān)在“密閉空間”中,產(chǎn)品與研發(fā)部門(mén)負(fù)責(zé)人齊聚一堂,高效決策、快速推進(jìn)。就像高考前的倒計(jì)時(shí),白板上寫(xiě)下日期,提醒著大家必須加把勁。
大模型從單一模態(tài)發(fā)展到多模態(tài)的趨勢(shì)勢(shì)不可擋,語(yǔ)音技術(shù)被視作重點(diǎn)突破口之一。
聲網(wǎng)專(zhuān)注音視頻領(lǐng)域已有數(shù)年,積累了深厚的技術(shù)儲(chǔ)備。他們期望將自家的RTE技術(shù)與生成式AI進(jìn)行融合,借產(chǎn)品創(chuàng)新打造新的增長(zhǎng)極。
緊鑼密鼓之下,除夕前夕,對(duì)話式AI引擎正式推出首個(gè)公測(cè)版,首批開(kāi)發(fā)者和客戶率先體驗(yàn)。第一項(xiàng)操作便是讓DeepSeek開(kāi)口拜年,這一場(chǎng)景完全在意料之中。
對(duì)聲網(wǎng)而言,這款產(chǎn)品的意義非凡。
和利鵬在《21CBR》上表示,聲網(wǎng)過(guò)去專(zhuān)注于人與人的交流,打造對(duì)話式AI引擎。如今轉(zhuǎn)向人機(jī)對(duì)話,且要做到實(shí)時(shí)互動(dòng)。交流模式的轉(zhuǎn)變帶來(lái)了底層技術(shù)的全新要求,“工程化落地存在諸多難題”。
姚光華指出,實(shí)現(xiàn)AI語(yǔ)音秒回提問(wèn)、模擬真實(shí)對(duì)話節(jié)奏、隨時(shí)打斷AI等技術(shù)功能,都是從客戶需求的深入剖析中來(lái)的。但這些構(gòu)想在落地實(shí)施時(shí)需要循序漸進(jìn),不斷優(yōu)化改進(jìn)。
“對(duì)話人聲鎖定”這個(gè)功能,是客戶提出來(lái)的。姚光華表示,某種程度上,客戶是最好的導(dǎo)師。
拆解引擎
“之所以叫‘對(duì)話式AI引擎’,就在于我們不做Agent,只想構(gòu)建對(duì)話式工具?!币馊A向《21CBR》強(qiáng)調(diào)。
在定產(chǎn)品名字時(shí),團(tuán)隊(duì)一度考慮用“轉(zhuǎn)換器”,寓意接入即可令A(yù)I聽(tīng)懂人說(shuō)話,但最終拍板的是“引擎”。
這個(gè)“引擎”聽(tīng)上去更通俗,但更能亮明聲網(wǎng)的態(tài)度:只提供能力,與大模型廠商合作而非競(jìng)爭(zhēng)。
“我們?cè)谟懻揂I基礎(chǔ)設(shè)施時(shí),都認(rèn)為實(shí)時(shí)互動(dòng)也是其中一部分。聲網(wǎng)的角色,就是AI基礎(chǔ)設(shè)施里的交互。”和利鵬透露,公司與國(guó)內(nèi)幾家模型廠商都有合作。
他提到,大模型廠商自己從頭做交互,設(shè)備、網(wǎng)絡(luò)等各種要求很高。聲網(wǎng)做實(shí)時(shí)互動(dòng)已有十幾年,方案和產(chǎn)品的成熟度高,更具優(yōu)勢(shì)。
讓大模型開(kāi)口說(shuō)話的“引擎”,拆解下來(lái),有AI語(yǔ)音秒回、對(duì)話人聲鎖定、智能打斷、全模型適配等多項(xiàng)能力。姚光華說(shuō),轉(zhuǎn)化成產(chǎn)品語(yǔ)言就是四個(gè)字,“多快好省”。
其中,響應(yīng)延遲方面,以毫秒為單位壓縮,中位數(shù)能達(dá)到650ms。
姚光華指出,市面上一些產(chǎn)品,宣傳能做到毫秒級(jí),但實(shí)際測(cè)量延遲很大。
在交互體驗(yàn)方面,"專(zhuān)注式聲音過(guò)濾技術(shù)"能夠有效屏蔽95%的環(huán)境人聲和噪聲干擾,精準(zhǔn)捕捉對(duì)話者的聲音,即使在丟包率高達(dá)80%或斷網(wǎng)3-5秒的情況下,依然能保持對(duì)話的流暢進(jìn)行。
在開(kāi)發(fā)部署方面,開(kāi)發(fā)人員只需編寫(xiě)兩行代碼,耗時(shí)15分鐘,即可完成與LLM和TTS相關(guān)的URL和密鑰的配置,從而快速實(shí)現(xiàn)系統(tǒng)部署。
關(guān)于價(jià)格問(wèn)題,經(jīng)過(guò)團(tuán)隊(duì)多次討論和反復(fù)確認(rèn),最終確定AI語(yǔ)音對(duì)話單價(jià)為0.098元/分鐘,而"智能打斷"功能作為增值服務(wù),定價(jià)為0.042元/分鐘。
此外,團(tuán)隊(duì)為所有開(kāi)發(fā)者提供了1000分鐘的免費(fèi)使用額度。
姚光華指出,經(jīng)過(guò)一段時(shí)間的打磨和實(shí)際使用場(chǎng)景調(diào)研,團(tuán)隊(duì)發(fā)現(xiàn)用戶與AI每進(jìn)行一次對(duì)話,平均會(huì)有約3輪問(wèn)答,計(jì)算下來(lái)每次對(duì)話的平均時(shí)長(zhǎng)約為21.1秒,單次成本為3分錢(qián)。
若每月對(duì)話次數(shù)為15次,月成本僅需不到5毛錢(qián),年成本則為5元。
姚光華表示,"這個(gè)價(jià)格足夠便宜,大家都能用得起。"
人機(jī)未來(lái)方面,對(duì)話式AI引擎能夠?qū)崿F(xiàn)哪些具體應(yīng)用?
和利鵬表示,目前可部署的場(chǎng)景包括智能助手、虛擬陪伴、口語(yǔ)陪練等,公司已成功落地十幾種場(chǎng)景,其中陪伴類(lèi)場(chǎng)景較多,同時(shí)對(duì)智能硬件的需求量也比較大。
在人機(jī)未來(lái)部分,對(duì)話式AI引擎的功能和應(yīng)用場(chǎng)景值得深入探討。
比如,讓開(kāi)口對(duì)話的DeepSeek陪伴孩子,回應(yīng)他們天馬行空的"十萬(wàn)個(gè)為什么",同時(shí)與父母平等交流。
和利鵬表示,"小孩子更關(guān)注快速響應(yīng),而答案的準(zhǔn)確性并非首要考量。"
在他的觀點(diǎn)中,實(shí)時(shí)互動(dòng)從人與人的交互轉(zhuǎn)向人與機(jī)器的交互,對(duì)聲網(wǎng)深耕的RTE賽道而言,這是一項(xiàng)重要拓展。
和利鵬指出,"或許下一波變革將從觸控式與鍵盤(pán)式的交互轉(zhuǎn)向語(yǔ)音式的交流。"他提到,我們已經(jīng)看到了一些跡象。
姚光華指出,去年李飛飛團(tuán)隊(duì)撰寫(xiě)的一篇論文中,團(tuán)隊(duì)成員每人需深入研讀,最終總結(jié)出"從感知到智能"的核心觀點(diǎn)。
他對(duì)Agent進(jìn)行了分類(lèi):一類(lèi)是陪伴式Agent,主要提供情緒價(jià)值;另一類(lèi)是服務(wù)式Agent,側(cè)重智能價(jià)值。將二者結(jié)合,再增加時(shí)間價(jià)值維度,以提升用戶效率。
因此,以對(duì)話式AI引擎為載體的對(duì)話式Agent,跨越了模態(tài)感知與模態(tài)融合的邊界,實(shí)現(xiàn)了三重價(jià)值的融合。
技術(shù)革新往往帶來(lái)質(zhì)的飛躍,遠(yuǎn)超預(yù)期。
和利鵬援引OpenAI產(chǎn)品經(jīng)理的觀點(diǎn):"AI時(shí)代,只要通透60%,產(chǎn)品就應(yīng)該發(fā)布。"他認(rèn)為,產(chǎn)品發(fā)布必須與技術(shù)發(fā)展同步,及時(shí)投入市場(chǎng)檢驗(yàn),并根據(jù)反饋持續(xù)迭代。
姚光華表示,當(dāng)前版本雖然在特定場(chǎng)景下可能略顯不足,但用戶體驗(yàn)已達(dá)到標(biāo)準(zhǔn)。未來(lái)將持續(xù)加強(qiáng)功能的橫向拓展。
DeepSeek引爆賽道,聲網(wǎng)團(tuán)隊(duì)專(zhuān)注于音頻細(xì)分領(lǐng)域,團(tuán)隊(duì)在音頻細(xì)分領(lǐng)域取得突破。
題圖來(lái)源:視覺(jué)中國(guó)
村莊中的石灶制作,《桃源記》炒茶方法介紹 萊昂納德五人包夾絕殺,小卡1v3左手絕殺 vs 哈登關(guān)鍵攻防! 新疆機(jī)場(chǎng)新消息中轉(zhuǎn)可免費(fèi)入住太空艙酒店,烏魯木齊機(jī)場(chǎng)短暫停留可免費(fèi)住宿,但需滿足特定條件 宣布自由黨新領(lǐng)袖就任加拿大總理,英國(guó)央行前行長(zhǎng)或成加拿大總理,脫歐推動(dòng)者引三問(wèn)。 四星上將任務(wù)激活全步驟解析,《星球重啟》伊甸城四星上將任務(wù)攻略一覽 絕殺瞬間,"小卡1v3極限左手投籃絕殺,哈登攻防表現(xiàn)如何?" 航空發(fā)動(dòng)機(jī)創(chuàng)新突破,航空發(fā)動(dòng)機(jī)首飛再創(chuàng)佳績(jī)!三款新發(fā)動(dòng)機(jī)今年將再獲突破 智駕新標(biāo)桿15.98萬(wàn)起,廣豐鉑智3X上市即熱賣(mài),合資純電車(chē)為何突圍? 馬斯克與盧比奧的星鏈爭(zhēng)議,美前總統(tǒng)與馬斯克對(duì)質(zhì)的波蘭外交官呼吁公眾:內(nèi)訌,但一致對(duì)外! 無(wú)限宇宙,3月第一大片,全程代入感拉滿