- 裝備揭秘,《決勝巔峰》奧術(shù)之靴隱匿屬性一覽
- 攻略指南,
- 探秘寵物獲取,《最終幻想14:如何獲得雷普魯》
- 游戲世界探秘,《最終幻想14:神杖小蛇獲取指南》
- 獲取迷你艾多紐斯寵物的指南,《最終幻想14:迷你艾多紐斯獲取指南》
- 獲取寵物攻略,《最終幻想14》水道蜥蜴獲取指南
- 冒險指南,《原神》5.3海燈節(jié)第二天攻略
- 獲取金鯰,《最終幻想14:水晶世界》金鯰獲得方法
- 快速指南,《原神》5.3海燈節(jié)首日打法指南
- 獲取迷你好友寵物的方法,《最終幻想14:水晶世界》迷你寵物獲取指南
聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
小編|何己派
作者|鄢子為
上海一家公司,幫助DeepSeek像真人一樣開口說話。
3月中旬,聲網(wǎng)發(fā)布對話式AI引擎,只需兩行代碼,15分鐘,即可讓任意文本大模型"能說會道"。
這是一個"新物種"。
按團隊所述,它擁有多項獨特功能,全球范圍內(nèi)找不到可比的。對話一分鐘,成本不到一分錢。
"過去,大模型只能接受文字輸入,未來,我們將讓大模型明白你。"聲網(wǎng)產(chǎn)品線負責人和利鵬表示。
為了這次的新產(chǎn)品,聲網(wǎng)AI RTE產(chǎn)品線負責人姚光華向《21CBR》記者透露,從春節(jié)開始,公司瘋狂趕工,如同備戰(zhàn)高考,2月18日推出Public Beta版本,這次發(fā)布已達到可商用狀態(tài)。
截至3月7日美股收盤,聲網(wǎng)市值為36億元人民幣。
黑屋作戰(zhàn)
DeepSeek的爆火期間,聲網(wǎng)的產(chǎn)品團隊悄然部署了一場戰(zhàn)略行動。
春節(jié)前夕,聲網(wǎng)協(xié)調(diào)各職能部門的十幾位核心骨干,組建了一個核心團隊, sole mission 是打造一款能夠?qū)崿F(xiàn)與AI實時互動的工具產(chǎn)品。
這個主意早在半年前就已醞釀,順應DeepSeek發(fā)起的這場輿論風暴,項目加速推進。
團隊成員形容,大家被關在“密閉空間”中,產(chǎn)品與研發(fā)部門負責人齊聚一堂,高效決策、快速推進。就像高考前的倒計時,白板上寫下日期,提醒著大家必須加把勁。
大模型從單一模態(tài)發(fā)展到多模態(tài)的趨勢勢不可擋,語音技術(shù)被視作重點突破口之一。
聲網(wǎng)專注音視頻領域已有數(shù)年,積累了深厚的技術(shù)儲備。他們期望將自家的RTE技術(shù)與生成式AI進行融合,借產(chǎn)品創(chuàng)新打造新的增長極。
緊鑼密鼓之下,除夕前夕,對話式AI引擎正式推出首個公測版,首批開發(fā)者和客戶率先體驗。第一項操作便是讓DeepSeek開口拜年,這一場景完全在意料之中。
對聲網(wǎng)而言,這款產(chǎn)品的意義非凡。
和利鵬在《21CBR》上表示,聲網(wǎng)過去專注于人與人的交流,打造對話式AI引擎。如今轉(zhuǎn)向人機對話,且要做到實時互動。交流模式的轉(zhuǎn)變帶來了底層技術(shù)的全新要求,“工程化落地存在諸多難題”。
姚光華指出,實現(xiàn)AI語音秒回提問、模擬真實對話節(jié)奏、隨時打斷AI等技術(shù)功能,都是從客戶需求的深入剖析中來的。但這些構(gòu)想在落地實施時需要循序漸進,不斷優(yōu)化改進。
“對話人聲鎖定”這個功能,是客戶提出來的。姚光華表示,某種程度上,客戶是最好的導師。
拆解引擎
“之所以叫‘對話式AI引擎’,就在于我們不做Agent,只想構(gòu)建對話式工具?!币馊A向《21CBR》強調(diào)。
在定產(chǎn)品名字時,團隊一度考慮用“轉(zhuǎn)換器”,寓意接入即可令AI聽懂人說話,但最終拍板的是“引擎”。
這個“引擎”聽上去更通俗,但更能亮明聲網(wǎng)的態(tài)度:只提供能力,與大模型廠商合作而非競爭。
“我們在討論AI基礎設施時,都認為實時互動也是其中一部分。聲網(wǎng)的角色,就是AI基礎設施里的交互。”和利鵬透露,公司與國內(nèi)幾家模型廠商都有合作。
他提到,大模型廠商自己從頭做交互,設備、網(wǎng)絡等各種要求很高。聲網(wǎng)做實時互動已有十幾年,方案和產(chǎn)品的成熟度高,更具優(yōu)勢。
讓大模型開口說話的“引擎”,拆解下來,有AI語音秒回、對話人聲鎖定、智能打斷、全模型適配等多項能力。姚光華說,轉(zhuǎn)化成產(chǎn)品語言就是四個字,“多快好省”。
其中,響應延遲方面,以毫秒為單位壓縮,中位數(shù)能達到650ms。
姚光華指出,市面上一些產(chǎn)品,宣傳能做到毫秒級,但實際測量延遲很大。
在交互體驗方面,"專注式聲音過濾技術(shù)"能夠有效屏蔽95%的環(huán)境人聲和噪聲干擾,精準捕捉對話者的聲音,即使在丟包率高達80%或斷網(wǎng)3-5秒的情況下,依然能保持對話的流暢進行。
在開發(fā)部署方面,開發(fā)人員只需編寫兩行代碼,耗時15分鐘,即可完成與LLM和TTS相關的URL和密鑰的配置,從而快速實現(xiàn)系統(tǒng)部署。
關于價格問題,經(jīng)過團隊多次討論和反復確認,最終確定AI語音對話單價為0.098元/分鐘,而"智能打斷"功能作為增值服務,定價為0.042元/分鐘。
此外,團隊為所有開發(fā)者提供了1000分鐘的免費使用額度。
姚光華指出,經(jīng)過一段時間的打磨和實際使用場景調(diào)研,團隊發(fā)現(xiàn)用戶與AI每進行一次對話,平均會有約3輪問答,計算下來每次對話的平均時長約為21.1秒,單次成本為3分錢。
若每月對話次數(shù)為15次,月成本僅需不到5毛錢,年成本則為5元。
姚光華表示,"這個價格足夠便宜,大家都能用得起。"
人機未來方面,對話式AI引擎能夠?qū)崿F(xiàn)哪些具體應用?
和利鵬表示,目前可部署的場景包括智能助手、虛擬陪伴、口語陪練等,公司已成功落地十幾種場景,其中陪伴類場景較多,同時對智能硬件的需求量也比較大。
在人機未來部分,對話式AI引擎的功能和應用場景值得深入探討。
比如,讓開口對話的DeepSeek陪伴孩子,回應他們天馬行空的"十萬個為什么",同時與父母平等交流。
和利鵬表示,"小孩子更關注快速響應,而答案的準確性并非首要考量。"
在他的觀點中,實時互動從人與人的交互轉(zhuǎn)向人與機器的交互,對聲網(wǎng)深耕的RTE賽道而言,這是一項重要拓展。
和利鵬指出,"或許下一波變革將從觸控式與鍵盤式的交互轉(zhuǎn)向語音式的交流。"他提到,我們已經(jīng)看到了一些跡象。
姚光華指出,去年李飛飛團隊撰寫的一篇論文中,團隊成員每人需深入研讀,最終總結(jié)出"從感知到智能"的核心觀點。
他對Agent進行了分類:一類是陪伴式Agent,主要提供情緒價值;另一類是服務式Agent,側(cè)重智能價值。將二者結(jié)合,再增加時間價值維度,以提升用戶效率。
因此,以對話式AI引擎為載體的對話式Agent,跨越了模態(tài)感知與模態(tài)融合的邊界,實現(xiàn)了三重價值的融合。
技術(shù)革新往往帶來質(zhì)的飛躍,遠超預期。
和利鵬援引OpenAI產(chǎn)品經(jīng)理的觀點:"AI時代,只要通透60%,產(chǎn)品就應該發(fā)布。"他認為,產(chǎn)品發(fā)布必須與技術(shù)發(fā)展同步,及時投入市場檢驗,并根據(jù)反饋持續(xù)迭代。
姚光華表示,當前版本雖然在特定場景下可能略顯不足,但用戶體驗已達到標準。未來將持續(xù)加強功能的橫向拓展。
DeepSeek引爆賽道,聲網(wǎng)團隊專注于音頻細分領域,團隊在音頻細分領域取得突破。
題圖來源:視覺中國
dnf2024年4月,《dnf》超世界模式上線時間分享 AI的興起對人文工作的影響,DeepSeek們,會讓文科無用嗎? 8013輛新車型發(fā)布銷量增長顯著,嵐圖汽車2月交車8013輛 同比增長152% 重組狂歡,突然漲停!這個題材,大面積異動! 納薩力克追擊隊必看,《納薩力克之王》追擊隊玩法攻略 星艦試飛成功回收,美國SpaceX“星艦”火箭第八次試飛 營收猛漲 2月數(shù)據(jù)創(chuàng)新高美國投資超1000億,以下是對標題的改寫建議:1. "臺積電2月營收持續(xù)增長43%"2. "臺積電2月營收同比增長43%"3. "臺積電2月營收再創(chuàng)新高"4. "臺積電2月營收持續(xù)強勁增長"以上改寫都保持了原意,同時簡化了內(nèi)容,使標題更加簡潔明了。 特朗普宣布俄羅斯銀行業(yè)制裁升級,特朗普:考慮對俄實施大規(guī)模制裁 烏克蘭局勢急了 助眠保健品的選擇及認清保健品與藥品的本質(zhì)區(qū)別,失眠怎么辦?助眠產(chǎn)品該怎么選? 《就我眼神好》全關卡穿搭攻略,《如何搭配適合她們的年齡 outfits?10個小技巧分享!》