- 阿森納轉(zhuǎn)會市場新任大師,英國媒體:熱刺將延攬球員 為爭歐戰(zhàn)資格而戰(zhàn)
- 急性心肌梗死識別秘籍從胸痛到心電圖,心梗發(fā)作,生命安全線!這些識別和急救小貼士請牢記
- 低空物流新突破,順豐正式采購百架無人機,助力支線物流高效運輸說明:1. 保留了所有關(guān)鍵信息:順豐、采購、百架、無人機、支線物流、高效運輸2. 簡化了表述,去掉了部分重復(fù)詞匯3. 采用了更平和的語氣,避免了感嘆號4. 重組了表達順序,使標題更簡潔明了5. 保持了原意不變,同時提升了標題的表達效果
- 拖拽大法,《看你怎么秀》脫貧致富通關(guān)攻略
- 停擺臨時撥款法案沖擊美股 或致標普500跌超3%,全線大跌!“黑天鵝”,來襲?
- 美國文職裁員潮啟動,美國防部大規(guī)模裁員,超3萬名文職員工提出離職
- 奔馳GLC未來科技新勢力,奔馳純電動版GLC即將發(fā)布,或?qū)⒊蔀镋QC替代品的消息
- 打擊電信網(wǎng)絡(luò)詐騙四國攜手行動,外交部記者會:王毅談緬甸北部電信網(wǎng)絡(luò)詐騙窩點全部清除(解釋:改寫后的標題保持了原意,通過簡化語句和替換同義詞使標題更加簡潔明了,同時保留了所有關(guān)鍵信息。)
- 聚焦3月5日,全國人大代表張濤呼吁商業(yè)航天開拓國際市場
- 風(fēng)的意象融合詩意與自由感的表達,巴恩風(fēng)、淺春系之后,這個風(fēng)格突然大火!
聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
記者|何己
編輯|鄢子
上海的一家科技公司,致力于讓AI像真人一樣開口說話。
3月中旬,聲網(wǎng)發(fā)布了對話式AI引擎,只需兩行代碼,15分鐘內(nèi)即可讓任意文本大模型實現(xiàn)"能說會道"。
這是一項"新物種"的創(chuàng)新。
按照團隊介紹,該產(chǎn)品擁有多項獨特功能,全球范圍內(nèi)找不到同類產(chǎn)品。對話1分鐘,成本不到1毛錢。
"之前,大模型都是文字輸入,未來,我們將讓大模型明白你。"聲網(wǎng)產(chǎn)品線負責(zé)人和利鵬表示。
為了推出這項新產(chǎn)品,聲網(wǎng)AI RTE產(chǎn)品線負責(zé)人姚光華透露,從春節(jié)開始,公司瘋狂投入研發(fā),如同備戰(zhàn)高考,2月18日推出了Public Beta版本,現(xiàn)已達到商用狀態(tài)。
截至3月7日美股收盤,聲網(wǎng)市值已達36億元人民幣。
黑屋作戰(zhàn)
DeepSeek的火爆期間,聲網(wǎng)的產(chǎn)品團隊悄悄啟動了一場重要戰(zhàn)役。
春節(jié)期間,聲網(wǎng)協(xié)調(diào)不同部門的十幾位核心骨干,組建一個專注于做一款能與AI實時互動的功能型產(chǎn)品的專門團隊。
這個主意早在半年前就已經(jīng)萌芽階段,順應(yīng)DeepSeek興起的潮流,項目迅速推進。
姚光華形容當(dāng)時的場景,就像備戰(zhàn)高考一樣,室內(nèi)掛著一塊白板墻,每天都會更新倒計時日期,提醒大家必須一鼓作氣。
大模型從單一模態(tài)向多模態(tài)的發(fā)展呈現(xiàn)出不可阻擋的趨勢,語音交流被視作重要切入點之一。
聲網(wǎng)以起源于實時互動云服務(wù)起家,在音視頻領(lǐng)域積累了豐富經(jīng)驗,期望通過融合自家的RTE技術(shù)與生成式AI,推出新產(chǎn)品搶占制高點。
緊趕慢趕,在除夕當(dāng)天,對話式AI引擎正式發(fā)布Private Beta版本,首批開發(fā)者和客戶體驗良好,第一件事就是讓DeepSeek開口拜年。
對聲網(wǎng)而言,這款產(chǎn)品意義非凡。
和利鵬在《21CBR》上表示,聲網(wǎng)過去專注于人與人的交流,開發(fā)對話式AI引擎,現(xiàn)在轉(zhuǎn)向人與機器的交流,且要做到實時互動。這種轉(zhuǎn)變使得底層技術(shù)要求也相應(yīng)提升,“工程化落地過程中存在許多挑戰(zhàn)?!?/p>
姚光華指出,功能構(gòu)想源自客戶需求的抽絲剝繭,實際落地過程中需要邊探索邊完善,不斷查漏補缺,才能讓AI語音秒回提問,并模仿真人對話的節(jié)奏,隨時打斷AI系統(tǒng)。
姚光華表示,"比如對話人聲鎖定這個功能,就是客戶提出來的。"他強調(diào),某種程度上,客戶也可以說是最好的導(dǎo)師。
拆解引擎
姚光華解釋道,之所以稱這個產(chǎn)品為"對話式AI引擎",是因為我們不使用Agent,而是專注于構(gòu)建對話式的工具。
在確定產(chǎn)品名字時,團隊一度考慮使用"轉(zhuǎn)換器",這個詞匯聽起來更通俗,但最終決定采用"引擎"。
盡管"轉(zhuǎn)換器"聽起來更通俗,但"引擎"更能體現(xiàn)出聲網(wǎng)的態(tài)度:我們提供的是能力,而非與大模型廠商競爭。
和利鵬補充道,聲網(wǎng)的角色就是在AI基礎(chǔ)設(shè)施中提供交互功能。
他指出,大模型廠商在構(gòu)建交互時,設(shè)備、網(wǎng)絡(luò)等要求也比較高,而聲網(wǎng)已經(jīng)在這方面的解決方案和產(chǎn)品都較為成熟。
用"多快好省"四個字來概括這個"引擎"的能力,它包括AI語音秒回、對話人聲鎖定、智能打斷、全模型適配等多項功能。
姚光華補充道,這個"引擎"在響應(yīng)延遲方面表現(xiàn)突出,以毫秒為單位進行壓縮,中位數(shù)為650ms。
姚光華指出,市場上的一些產(chǎn)品在宣傳上聲稱能夠做到毫秒級響應(yīng),但實際測量結(jié)果卻相差很大。
在對話體驗方面,“專注模式”可以有效屏蔽95%的環(huán)境人聲和噪聲干擾,精準識別對話人聲。即使在丟包率高達80%或出現(xiàn)3-5秒的斷網(wǎng)情況下,也能保持流暢的對話交流。
在開發(fā)部署環(huán)節(jié),開發(fā)人員只需一行代碼,15分鐘內(nèi)即可完成部署。只需在LLM和TTS相關(guān)的URL和Key中填入必要的信息,就能快速實現(xiàn)功能。
關(guān)于價格問題,經(jīng)過多次討論和精心比價,團隊最終敲定:AI語音對話費用為0.098元/分鐘,作為增值服務(wù)的“智能打斷”功能則定為0.042元/分鐘。
此外,所有開發(fā)者將獲得1000分鐘的免費使用額度。
姚光華表示,經(jīng)過一段時間的優(yōu)化和實際使用場景的調(diào)研,團隊發(fā)現(xiàn):用戶與AI每一輪對話平均會有約3次問答交流,算下來每次對話時長約為21.1秒,單次成本約為3分錢。
按照每月15次對話的頻率計算,月成本不到5毛錢,年成本僅需5元。
姚光華指出:“這個價格足夠便宜,大家都能用得起。”
人機未來
對話式AI引擎能做些什么?
和利鵬表示,目前開發(fā)者可以部署的場景包括智能助手、虛擬陪伴、口語陪練等,公司已實現(xiàn)了十幾種場景,其中陪伴類場景較多,同時對智能硬件的需求量也較大。
比如,讓具備開口對話功能的DeepSeek成為孩子的智能 companion,不僅能滿足他們對知識的無限探索,還能像與父母對話那樣自然地交流。
和利鵬指出:"孩子們更關(guān)注的是即時互動,關(guān)鍵不在于答案的準確性,而在于能玩起來。"
在他的眼中,實時互動的模式正在從人與人之間的交流轉(zhuǎn)向人與機器的互動,這在聲網(wǎng)深耕的RTE賽道上呈現(xiàn)出顯著的延展空間。
和利鵬進一步表示:"或許下一個轉(zhuǎn)折點將是,所有傳統(tǒng)的人機交互方式(如觸控和鍵盤輸入)都實現(xiàn)語音化。目前,我們已經(jīng)看到一些積極的跡象。"
姚光華解釋道,去年李飛飛博士團隊在AI Agent領(lǐng)域發(fā)表了八九十頁的論文,團隊成員需要全部閱讀,最終總結(jié)出的核心觀點是:"從感知到智能"。
他將Agent分為兩類:第一類是陪伴類Agent,主要為用戶提供情緒價值;第二類是服務(wù)類Agent,提供智能價值。如果將這兩者融合在一起,再增加一層時間價值,將能夠幫助用戶提升效率。
因此,基于對話式AI引擎開發(fā)的對話式Agent,既涉及模態(tài)感知,又涉及模態(tài)融合,是整合以上三種價值的綜合載體。
技術(shù)革新往往帶來突飛猛進的變化。
和利鵬引用OpenAI產(chǎn)品經(jīng)理的觀點:"AI時代,只要我們理解其中60%的核心理念,產(chǎn)品就應(yīng)該及時發(fā)布。"他認為,產(chǎn)品的發(fā)布必須緊跟技術(shù)發(fā)展步伐,在市場中及時檢驗并驗證,然后根據(jù)反饋持續(xù)迭代。
姚光華補充道:"目前這個版本雖然在某些特定場景下可能還不夠完美,但用戶體驗已經(jīng)達到了預(yù)期目標。未來,我們將繼續(xù)專注于功能的橫向拓展。"
深度求索掀起行業(yè)革新,聲網(wǎng)團隊在細分領(lǐng)域深耕精作,必將在細分市場占據(jù)重要席位。
授權(quán)圖庫:視覺中國
控告金秀賢真相,金賽綸好友揭露酒駕真相,因公司安排被迫陪客,驚險逃離導(dǎo)致意外 極狐阿爾法T5 space master,極狐新阿爾法T5試駕實錄:細節(jié)之處見真情,銷量黑馬的底氣藏 heart 藏 soul(說明:這個改寫版本保留了原意,同時進行了以下優(yōu)化:1. 去掉了"銷量黑馬的底氣"中的"黑馬",簡化為更簡潔的表達2. 將"藏在每一個細節(jié)里"改為更有情感的表達"細節(jié)之處見真情"3. 使用"心"和" soul"增加標題的感染力4. 整體語言更加流暢自然5. 通過"實錄"一詞增加互動性) 最低配置需,征服黑暗:配置需求及游戲玩法介紹征服黑暗:配置需求及游戲玩法介紹 掌握正確的體態(tài)標準,完美身材從何而來?掌握三步驟快速測量法! 與好友冒險回憶與冥想,《光遇》11月7日每日任務(wù)攻略2023 大湖畔的水花翻涌處用祖母綠色的餌料釣到竹莢魚,怪物獵人荒野釣竹莢魚攻略 大飛機漲,C919大飛機進入快速交付期,大飛機板塊漲停潮來襲 背井離鄉(xiāng)的女性,《蒼山》:未被關(guān)注的佳作,郭柯宇貢獻教科書級別的演技 特斯拉暫停供應(yīng),特斯拉Model S/X供應(yīng)中斷,全球銷售情況不佳 2025年載人航天探索,神舟二十號、二十一號航天員已選定 開展訓(xùn)練準備中