- 最新活動(dòng)指南發(fā)布,《原神》5.0七圣召喚玩法攻略
- 精彩活動(dòng)搶先看,《原神》綺繪的蹤緒活動(dòng)攻略
- 全新公測(cè)震撼來(lái)襲,《龍族:卡塞爾之門(mén)》官方網(wǎng)站入口鏈接
- 裝備揭秘,《螢火突擊》誘餌彈道具一覽
- 獲得限定武器的小技巧,《原神》5.0源火紀(jì)行活動(dòng)玩法攻略
- 游戲指南揭秘,《崩壞:星穹鐵道》LinealChampion成就攻略
- 揭曉角色排名,《史萊姆新世界》伙伴實(shí)力排名
- 游戲裝備進(jìn)階指南,《問(wèn)道》黑水晶用在裝備上方法
- 星露谷物語(yǔ)玩家必看,《星露谷物語(yǔ)》大麥粉制作方法
- 最新角色揭秘,《原神》新角色希諾寧介紹
聲明:本文來(lái)自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
記者|何己派
編輯|鄢子為
一家上海公司,提供像真人一樣開(kāi)口說(shuō)話的AI解決方案。
3月上旬,聲網(wǎng)推出了一個(gè)新的對(duì)話式AI引擎系統(tǒng),只需兩行代碼,15分鐘內(nèi)即可讓任意文本大模型實(shí)現(xiàn)"能說(shuō)會(huì)道"的功能。
這項(xiàng)技術(shù)堪稱(chēng)"新物種"。
按照?qǐng)F(tuán)隊(duì)的說(shuō)法,聲網(wǎng)的對(duì)話系統(tǒng)擁有多項(xiàng)獨(dú)特功能,目前全球找不到可比的對(duì)手。單次對(duì)話僅需不到一毛錢(qián)。
"之前,大模型都是文字輸入,但未來(lái),我們希望讓大模型能理解你。"聲網(wǎng)產(chǎn)品線負(fù)責(zé)人和利鵬表示。
為了這次發(fā)布的新產(chǎn)品,聲網(wǎng)AI RTE產(chǎn)品線負(fù)責(zé)人姚光華向《21CBR》記者透露,從春節(jié)開(kāi)始,公司就進(jìn)入全速生產(chǎn)狀態(tài),就像備戰(zhàn)高考一樣緊張。2月18日推出了Public Beta版本,目前已處于可商用狀態(tài)。
截至3月7日美股收盤(pán),聲網(wǎng)市值為36億元人民幣。
黑屋作戰(zhàn)
在DeepSeek爆紅之際,聲網(wǎng)的產(chǎn)品團(tuán)隊(duì)發(fā)動(dòng)了一場(chǎng)關(guān)鍵戰(zhàn)役。
春節(jié)期間,聲網(wǎng)協(xié)調(diào)不同部門(mén)的十幾位核心骨干,組建了一個(gè)專(zhuān)門(mén)團(tuán)隊(duì),專(zhuān)注于研發(fā)一款支持與AI實(shí)時(shí)互動(dòng)的工具產(chǎn)品。
早在半年前,這個(gè)構(gòu)想就已經(jīng)開(kāi)始醞釀,隨著DeepSeek的浪潮而來(lái),項(xiàng)目速度驟然提升。
姚光華描述當(dāng)時(shí)的工作場(chǎng)景:"大家關(guān)在一間'小黑屋'里,所有相關(guān)負(fù)責(zé)人圍坐在一起,快速?zèng)Q策、快速推進(jìn)。"他用高考備戰(zhàn)來(lái)形容當(dāng)時(shí)緊張而有序的節(jié)奏,白板上倒計(jì)時(shí)不斷更新,提醒著所有人必須加速行動(dòng)。
大模型已從單一模態(tài)發(fā)展至多模態(tài),語(yǔ)音技術(shù)被視作重要的突破方向之一。
聲網(wǎng)作為一家以實(shí)時(shí)互動(dòng)云服務(wù)起家的公司,在音視頻領(lǐng)域已有較為深厚的積累,他們希望將自家的RTE技術(shù)與生成式AI相結(jié)合,以一款新作搶占先機(jī)。
在除夕當(dāng)天,對(duì)話式AI引擎已正式發(fā)布Private Beta版本,首批開(kāi)發(fā)者和客戶(hù)紛紛 arrive,并立即開(kāi)始第一項(xiàng)重要工作——讓DeepSeek開(kāi)口拜年。
對(duì)于聲網(wǎng)團(tuán)隊(duì)而言,這款產(chǎn)品的意義不言而喻。
和利鵬向我們介紹,聲網(wǎng)多年以來(lái)專(zhuān)注于人的交流,而對(duì)話式AI引擎的開(kāi)發(fā),標(biāo)志著他們轉(zhuǎn)向人機(jī)交流領(lǐng)域,且要求實(shí)現(xiàn)實(shí)時(shí)互動(dòng)。和利鵬指出,"工程化落地存在諸多挑戰(zhàn)。"
姚光華提到,為了讓AI能夠迅速回應(yīng)提問(wèn),模擬真實(shí)對(duì)話的速度和節(jié)奏,團(tuán)隊(duì)需要不斷測(cè)試和優(yōu)化,"邊走邊試,查漏補(bǔ)缺。"
“比如對(duì)話人聲鎖定這個(gè)功能,就是客戶(hù)提出來(lái)的?!币馊A解釋道,某種程度上,客戶(hù)是最好的導(dǎo)師。
拆解引擎
“之所以叫‘對(duì)話式AI引擎’,就在于我們不做Agent,只想構(gòu)建對(duì)話式工具?!币馊A向《21CBR》強(qiáng)調(diào)道。
在決定產(chǎn)品名字時(shí),團(tuán)隊(duì)一度考慮使用“轉(zhuǎn)換器”,這個(gè)詞匯寓意接入后AI能夠理解人類(lèi)語(yǔ)言,但最終決定采用“引擎”。
“轉(zhuǎn)換器”聽(tīng)起來(lái)更通俗,但它沒(méi)有明確表達(dá)聲網(wǎng)的立場(chǎng):我們只是提供能力,而非與大型模型廠商競(jìng)爭(zhēng)。
“我們?cè)谟懻揂I基礎(chǔ)設(shè)施時(shí),都認(rèn)為實(shí)時(shí)互動(dòng)也是其中一部分。聲網(wǎng)的角色就是在AI基礎(chǔ)設(shè)施中負(fù)責(zé)交互?!焙屠i透露,公司與國(guó)內(nèi)多家模型廠商有合作關(guān)系。
他指出,大型模型廠商通常從頭開(kāi)始構(gòu)建交互界面,這對(duì)設(shè)備、網(wǎng)絡(luò)等要求非常高。聲網(wǎng)擁有多年的實(shí)時(shí)互動(dòng)經(jīng)驗(yàn),其方案和產(chǎn)品成熟度更高,更具優(yōu)勢(shì)。
能夠?qū)崿F(xiàn)讓大模型開(kāi)口說(shuō)話的“引擎”,拆解下來(lái),它擁有四個(gè)關(guān)鍵功能:AI語(yǔ)音秒回、對(duì)話人聲鎖定、智能打斷,以及全模型適配能力。姚光華說(shuō),用一句話概括就是“多快好省”。
在響應(yīng)延遲方面,以毫秒為單位壓縮,其中位數(shù)達(dá)到了650ms。
姚光華指出,市面上一些產(chǎn)品宣稱(chēng)能夠?qū)崿F(xiàn)毫秒級(jí)響應(yīng),但實(shí)際測(cè)試中延遲卻有很大差異。
在對(duì)話體驗(yàn)方面,“專(zhuān)注模式”功能可有效屏蔽95%的環(huán)境人聲和噪聲干擾,精準(zhǔn)識(shí)別對(duì)話人聲。即使在丟包率高達(dá)80%或網(wǎng)絡(luò)中斷3-5秒的情況下,也能保持對(duì)話的穩(wěn)定流暢。
在開(kāi)發(fā)部署方面,開(kāi)發(fā)人員只需編寫(xiě)兩行代碼,15分鐘即可完成部署。只需在代碼中填入與復(fù)制生成LLM和TTS相關(guān)的URL和密鑰,即可快速部署。
關(guān)于價(jià)格問(wèn)題,經(jīng)過(guò)內(nèi)部討論和反復(fù)商量,團(tuán)隊(duì)最終決定:AI語(yǔ)音對(duì)話的單價(jià)為每分鐘0.098元,作為增值服務(wù)的“智能打斷”技術(shù)則定價(jià)為每分鐘0.042元。
此外,所有開(kāi)發(fā)者每人每月可享受1000分鐘免費(fèi)使用額度。
姚光華表示,經(jīng)過(guò)一段時(shí)間的打磨和實(shí)際使用場(chǎng)景調(diào)研,團(tuán)隊(duì)發(fā)現(xiàn),用戶(hù)與AI每產(chǎn)生一次對(duì)話,平均會(huì)有約3輪問(wèn)答,計(jì)算下來(lái)平均對(duì)話時(shí)長(zhǎng)約為21秒,單次成本僅為3分錢(qián)。
若每月對(duì)話次數(shù)為15次,那么月均成本不到5分錢(qián),年度費(fèi)用僅需5元。
姚光華表示,“這項(xiàng)技術(shù)不僅成本低廉,使用門(mén)檻極低,完全適合大眾。”
人機(jī)未來(lái)
對(duì)話式AI引擎,到底能做點(diǎn)啥?
和利鵬表示,目前可部署的場(chǎng)景包括智能助手、虛擬陪伴、口語(yǔ)陪練等,公司已落地十幾種場(chǎng)景,其中陪伴類(lèi)場(chǎng)景較多,智能硬件的需求也不少。
比如,讓DeepSeek的人工智能可以與孩子自然對(duì)話,幫助他們解答"為什么"、"怎么樣"等各類(lèi)問(wèn)題,同時(shí)還能像和父母聊天一樣輕松自然地交流。
小孩子想要的其實(shí)是快速的互動(dòng)交流,至于答案是否準(zhǔn)確,這并不是最重要的。和利鵬說(shuō):"小孩子想要的是快速互動(dòng),不在于答案是否足夠準(zhǔn)確,而是先玩起來(lái)。"
在他的看法中,實(shí)時(shí)的互動(dòng)交流從人與人的交互,轉(zhuǎn)向人與機(jī)器的交互,對(duì)聲網(wǎng)深耕的RTE賽道而言,這是一項(xiàng)重要的延展方向。
和利鵬表示,"或許下一個(gè)變革,是所有觸摸式和鍵盤(pán)式的交互,都變成語(yǔ)音式的?,F(xiàn)在我們已經(jīng)看到了一些苗頭。"他向《21CBR》表示。
姚光華指出,關(guān)于AI Agent的研究,去年李飛飛博士團(tuán)隊(duì)撰寫(xiě)了七八十頁(yè)的論文,團(tuán)隊(duì)每個(gè)成員都要認(rèn)真研讀,最后總結(jié)出一句話:"從感知到智能"。
他將Agent分為兩類(lèi):一類(lèi)是陪伴類(lèi)的Agent,主要為用戶(hù)提供情緒價(jià)值;另一類(lèi)是服務(wù)類(lèi)的Agent,提供智能價(jià)值。如果將二者結(jié)合起來(lái),再加一層時(shí)間價(jià)值,就能讓用戶(hù)在效率上獲得提升。
因此,對(duì)話式AI引擎所推動(dòng)的對(duì)話式Agent,既涉及模態(tài)感知,又涉及模態(tài)融合,是吸收以上三重價(jià)值的載體。
技術(shù)革新往往會(huì)讓整個(gè)行業(yè)發(fā)生翻天覆地的變化。
和利鵬援引OpenAI產(chǎn)品經(jīng)理的話:"AI時(shí)代,只要想通60%,產(chǎn)品就應(yīng)該發(fā)布。"他認(rèn)為,產(chǎn)品的發(fā)布必須緊跟技術(shù)發(fā)展步伐,及時(shí)進(jìn)入市場(chǎng)檢驗(yàn),并根據(jù)反饋不斷迭代升級(jí)。
姚光華表示:"現(xiàn)在這個(gè)版本,雖然不是任何場(chǎng)景都萬(wàn)能,但用戶(hù)體驗(yàn)已經(jīng)達(dá)到了預(yù)期目標(biāo)。未來(lái),我們將繼續(xù)做好功能的橫向拓展。"
小編帶大家關(guān)注音頻領(lǐng)域的最新動(dòng)態(tài),聲網(wǎng)團(tuán)隊(duì)專(zhuān)注于音頻細(xì)分領(lǐng)域的深耕,至少能分到一份湯。
圖片來(lái)源于視覺(jué)中國(guó)
方大同離世2023年11月16日,高價(jià)方大同遺作,經(jīng)紀(jì)公司緊急叫停,切勿受騙 星艦火箭事件調(diào)查,SpaceX星艦第八次試飛失敗原因查明,尾部能量異常導(dǎo)致發(fā)動(dòng)機(jī)失靈 桃源記獸皮獲取攻略,《桃源記》獸皮獲得方法介紹 NBA常規(guī)賽KD再創(chuàng)歷史新高太陽(yáng)隊(duì)三連勝,太陽(yáng)三內(nèi)線64分大勝獨(dú)行俠 三內(nèi)線橫掃對(duì)手五連敗 杜蘭特21+9+8神跡打破德克歷史紀(jì)錄 解鎖木材,《桃源記》硬木板獲得方法分享 重磅影響老舊小區(qū)和新建住宅,樓市的“深水炸彈”,來(lái)了 月球探測(cè)器雅典娜在著陸點(diǎn)成功完成任務(wù),美國(guó)"雅典娜"月球著陸器著陸過(guò)程發(fā)生傾覆,任務(wù)提前結(jié)束。 2025年遺產(chǎn)分配大S離世引發(fā) Focus on監(jiān)護(hù)權(quán),方大同遺言引發(fā)的思考:2025年的"不真實(shí)"與大S的遺產(chǎn) NBA焦點(diǎn)戰(zhàn)哈登數(shù)據(jù)再創(chuàng)新高,哈登神跡:29+9+11助,近10年NBA首人數(shù)據(jù)聯(lián)盟唯一 市場(chǎng)波動(dòng)與板塊活躍,A股三大指數(shù)微跌,成交額放量降至3000億上方