- 深入解析玩家必讀的奧德斯技巧指南,《決勝巔峰》奧德斯技能介紹
- 游戲資源攻略,《秩序:新曙光》金礦石獲取方法
- 揭開灰曲技能的奧秘,《重構(gòu):阿塔提斯》灰曲技能介紹
- 揭秘游戲裝備選擇秘訣,《重構(gòu):阿塔提斯》哈米莉亞最強出裝推薦
- 全新賽季揭幕,《暗區(qū)突圍》S11新賽季常駐安全區(qū)介紹
- 深入解析游戲角色,《重構(gòu):阿塔提斯》哈米莉亞技能介紹
- 實用技能搭配指南,《重構(gòu):阿塔提斯》空噪共鳴技能選擇推薦
- 獲取角色秘籍,《無盡夢回》AC娘獲取方法介紹說明
- 新手指南 快速掌握技巧,《秩序:新曙光》隊友增加方法
- 即將揭曉的新賽季,《暗區(qū)突圍》S11賽季更新上線時間
聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
記者|何己派
編輯|鄢子為
一家上海公司,幫助DeepSeek像真人一樣開口說話。
3月上旬,聲網(wǎng)發(fā)布對話式AI引擎,僅需兩行代碼,15分鐘即可讓任何文本大模型實現(xiàn)"能說會道"。
這是一個"新物種"。
按團隊所說,它擁有多項獨特的核心功能,放眼全球,難找到與之相媲美的產(chǎn)品。對話1分鐘,僅需不到一分錢的成本。
"之前,大模型都是文字輸入,未來,我們將讓大模型明白你的意思。"聲網(wǎng)產(chǎn)品線負責人和利鵬表示。
為了這次的新產(chǎn)品,聲網(wǎng)AI RTE產(chǎn)品線負責人姚光華向《21CBR》記者透露,從春節(jié)開始,公司瘋狂趕工,如同備戰(zhàn)高考,2月18日發(fā)布Public Beta版本,目前該版本已達到可用狀態(tài)。
截至3月7日美股收盤,聲網(wǎng)市值為36億元人民幣。
黑屋作戰(zhàn)
DeepSeek的爆火事件中,聲網(wǎng)的產(chǎn)品團隊發(fā)動了一場關(guān)鍵戰(zhàn)役。
在春節(jié)期間,聲網(wǎng)協(xié)調(diào)不同部門的核心骨干,組建了一個專門團隊,專注于研發(fā)一款能夠與AI實時互動的工具產(chǎn)品。
早在半年前,這個構(gòu)想就已經(jīng)開始醞釀,隨著DeepSeek的浪潮而來,項目的推進速度陡然加快。
"大家關(guān)在'小黑屋'里開會, product、研發(fā)等多個條線的負責人集中討論,迅速決策、推進。"姚光華形容稱,這種集思廣益的氛圍類似于高考備戰(zhàn),室內(nèi)白板上不斷更新著倒計時,提醒大家必須集中力量迎戰(zhàn)。
隨著大模型技術(shù)向著多模態(tài)方向不可阻擋地發(fā)展,語音交流被公認為一個重要的切入點。
聲網(wǎng)以做實時互動云服務起家,在音視頻領(lǐng)域積累了較為深厚的功力,他們期望將自家的RTE技術(shù)與生成式AI相結(jié)合,借此推出新產(chǎn)品搶占制高點。
在除夕當天,聲網(wǎng)上線了首個版本的對話式AI引擎,首批開發(fā)者和客戶紛紛到場,第一項操作就是讓DeepSeek開口致賀新年。
對于聲網(wǎng)而言,這款產(chǎn)品的意義非凡。
和利鵬表示,聲網(wǎng)多年以來專注于人與人的交流,如今轉(zhuǎn)向人與機器的對話,且要求實現(xiàn)實時互動,這種交流模式的轉(zhuǎn)變帶來了技術(shù)層面的諸多挑戰(zhàn)。
姚光華指出,實現(xiàn)AI語音秒回提問、模擬真實對話節(jié)奏的功能,以及在需要時隨時打斷AI的技術(shù)設(shè)計,均源自對客戶需求的深入挖掘,而將這些構(gòu)想轉(zhuǎn)化為現(xiàn)實,則需要一邊探索一邊實踐,不斷完善。
比如對話人聲鎖定這個功能,就是靠客戶提出來的。姚光華表示,某種程度上,客戶就像一位良師益友,給我們指明了前進的方向。
拆解引擎
之所以叫"對話式AI引擎",也體現(xiàn)了我們的設(shè)計理念:我們不設(shè)計智能代理,而是專注于構(gòu)建對話式的工具。姚光華向《21CBR》強調(diào)。
在產(chǎn)品命名階段,團隊曾有一段時間,我們還在考慮使用"轉(zhuǎn)換器"這個詞。寓意接入即可令AI聽懂人說話,但最終我們還是拍板選用了"引擎"。
"轉(zhuǎn)換器"聽起來更通俗易懂,但聲網(wǎng)選擇的路徑則更加明確:我們專注于提供能力本身,而非與大模型廠商競爭。
"大家在討論AI基礎(chǔ)設(shè)施,我們認為,實時互動也是其中一部分。聲網(wǎng)的角色,就是AI基礎(chǔ)設(shè)施里的交互。"和利鵬補充道。
他提到,大模型廠商自己從頭做交互,設(shè)備、網(wǎng)絡(luò)等各種要求都很高。而聲網(wǎng)在這塊已經(jīng)深耕了十幾年,積累了豐富的經(jīng)驗和成熟的方案,優(yōu)勢明顯。
姚光華指出,"引擎"拆解后包含AI語音秒回、對話人聲鎖定、智能打斷、全模型適配等多種功能,用"多快好省"四個字就能概括它的核心價值。
其中,在響應延遲方面,我們實現(xiàn)了毫秒級的壓縮,中位數(shù)延遲達到650毫秒。
姚光華指出,市場上有一些產(chǎn)品,宣傳中提到毫秒級響應,但實際測試中發(fā)現(xiàn)這些產(chǎn)品的延遲與宣傳差距較大。
在對話體驗方面,"多通道聲學模型"技術(shù)可有效濾除95%的環(huán)境人聲和噪聲干擾,精準捕獲對話人聲信號。即使在80%的丟包率和斷網(wǎng)3-5秒的網(wǎng)絡(luò)延遲情況下,也能保持對話的穩(wěn)定流暢進行。
在開發(fā)部署環(huán)節(jié),僅需兩行代碼和15分鐘的時間即可完成。開發(fā)者只需在代碼中填入與復制生成LLM和TTS相關(guān)聯(lián)的URL和密鑰,就能快速完成部署。
關(guān)于費用問題,經(jīng)過深入討論和反復斟酌,團隊最終敲定以下價格:AI語音對話服務費為0.098元/分鐘,而作為增值服務的"智能打斷"功能定價為0.042元/分鐘。
為所有開發(fā)者提供1000分鐘免費使用額度。
姚光華表示,經(jīng)過一段時間的優(yōu)化和實際使用場景調(diào)研,團隊發(fā)現(xiàn)用戶與AI每產(chǎn)生一次對話,平均會有約3輪問答,計算下來平均對話時長約為21.1秒,單次成本為3分錢。
若每位開發(fā)者每月使用15次對話功能,那么月均成本不到5分錢,年均成本則僅為5元。
"這是一項足夠便宜到大家都能用得起的解決方案。"姚光華表示。
人機協(xié)作的未來
對話式AI引擎能帶來哪些應用場景?
和利鵬指出,目前已有十幾種應用場景落地,包括智能助手、虛擬陪伴、口語陪練等類型,其中陪伴類應用較為集中,同時智能硬件設(shè)備的需求也日益增長。
比如,讓能開口對話的DeepSeek陪伴孩子,解答他們提出的各種問題,就像和父母對話那樣自然。
"小孩子想要的是快速而自然的互動,答案的準確性不是首要考慮的因素。"和利鵬表示。
從人與人到人與機器的互動,對聲網(wǎng)深耕的RTE賽道而言,這是一次重要的延展。
"或許下一個變革,是將所有觸摸式和鍵盤式的交互方式,轉(zhuǎn)變?yōu)檎Z音式的。"和利鵬向《21CBR》表示。
姚光華指出,關(guān)于AI Agent,去年李飛飛博士團隊發(fā)表的論文數(shù)量已經(jīng)超過 seventy pages,團隊成員每人必須研讀,最終的總結(jié)是"從感知到智能"。
他將其分為兩類:陪伴類Agent主要為用戶提供情緒價值,服務類的則提供智能價值,二者合而為一,再增加一層時間價值,以提升用戶的效率。
因此,基于對話式AI引擎驅(qū)動的對話式Agent,跨越了模態(tài)感知和模態(tài)融合,成為整合以上三重價值的載體。
技術(shù)革新往往帶來翻天覆地的變化。
和利鵬援引OpenAI產(chǎn)品經(jīng)理的觀點:"AI時代,只要想通60%,產(chǎn)品就應該發(fā)布",強調(diào)產(chǎn)品發(fā)布必須緊跟技術(shù)發(fā)展,及時進入市場檢驗,并根據(jù)反饋持續(xù)迭代。
"目前這個版本,雖然在某些場景下還不夠完美,但用戶體驗已經(jīng)達到了預期。未來我們將繼續(xù)深化功能的橫向拓展。"姚光華表示。
DeepSeek引領(lǐng)行業(yè),聲網(wǎng)團隊專注于音頻細分領(lǐng)域,至少能喝到好湯。
圖片來源:視覺中國
11月19日-23日多肉篇,《植護寶典多肉篇玩法合集:全解析》 特朗普與歐洲領(lǐng)導人關(guān)于俄烏沖突的對話,特朗普:歐洲多位領(lǐng)導人近日給我打電話,討論俄烏沖突達成共識 11/21-12/10卡池開啟3星角色等你來抽,《小冰冰傳奇》懷舊服死靈法師卡池解析說明:1. 去掉了"小冰冰傳奇",因為標題已經(jīng)足夠簡潔2. 將"介紹"改為更簡潔的"解析"3. 調(diào)整語序,使標題更符合標題的常見表達方式4. 保留了核心信息:懷舊服、死靈法師、卡池5. 比原標題更簡潔明了,同時保持了原意 挑戰(zhàn)解謎,《解析賈府族譜:關(guān)系拆解攻略》或《賈府族譜解析:關(guān)系圖解通關(guān)攻略》說明:1. 去掉了重復的"賈府",使標題更簡潔2. 使用"解析"替代"文字來找茬",更直接3. "關(guān)系拆解"比"賈府關(guān)系"更具體4. "圖解"替代"攻略",使標題更直觀5. 整體保持了核心信息,同時讓標題更簡短有力 大S與方大同的遺產(chǎn)與遺言:2025年的不真實感一嘆 價格暴跌豪華品牌崩塌,奧迪Q5L首批發(fā)售23.8萬,傳統(tǒng)豪華品牌價格大幅下挫,今年是入手傳統(tǒng)豪華品牌汽車的的最佳時機。 特朗普與萬斯的沖突背后,萬斯指出烏克蘭最佳安全保障是讓美國人獲益 限定狂歡 Crystal Nuclear 活動來了,《晶核》暴打嘉年華活動介紹一覽 美股三大指數(shù)科技股中概股集體大跌,美股三大指數(shù)低開跌跌,英偉達跌2%,諾和諾德跌超8% 不斷追求減少國家隊比賽的影響,塞蒂恩持續(xù)關(guān)注球員發(fā)展,減少國家隊比賽干擾這個改寫版本:1. 去掉了分號,使標題更連貫2. 使用"持續(xù)關(guān)注"替代"對球員們的要求不會停止",更簡潔有力3. "減少國家隊比賽干擾"比"盡量減少國家隊比賽的影響"更簡潔明了4. 整體保持了原意,同時使標題更符合現(xiàn)代簡潔標題風格5. 使用"球員發(fā)展"替代"球員們的要求",更符合整體標題的主語6. 整體標題更符合現(xiàn)代簡潔標題風格,更具吸引力