- 任務攻略,《逆水寒手游》愛別離第一幕通關攻略
- 2025年2月嵐圖汽車銷量增長亮點十足購車優(yōu)惠助力選車,嵐圖汽車2月新車交付8013輛 同比增長152%
- 不續(xù)約 abrupt exit 梁雯蔚,TVB港姐29歲離巢,未續(xù)約稱離開是最佳選擇
- 2025 Women in Investment,私募女CEO TOP20榜單發(fā)布,半夏李蓓、高毅孫慶瑞、景林蔣彤上榜
- 重返巔峰奧迪R8混合動力超級跑車即將上市,奧迪R8將于2027年重返市場,采用插電式混合動力系統(tǒng)
- AI技術合作,鴻海富士康首推AI大模型FoxBrain
- 輕松 paired助力無限快速求助,《蔚藍檔案》總力戰(zhàn)借人方法介紹
- 特朗普宣布全球和平新計劃,特朗普在國會發(fā)表演講,涵蓋四個主要內容,意外事件發(fā)生,民主黨議員被驅離。
- 秋褲移動攻略,《文字創(chuàng)意秋褲攻略:保暖妙招通關技巧》
- 價格戰(zhàn)young化趨勢,奧迪Q5L為何能有"親民價格"?豪華品牌價值崩塌的隱情
聲明:本文來自于(ID:ykqsd.com)授權轉載發(fā)布。
記者|何己派
編輯|鄢子為
一家上海公司,幫助DeepSeek像真人一樣開口說話。
3月上旬,聲網發(fā)布對話式AI引擎,僅需兩行代碼,15分鐘即可讓任何文本大模型實現(xiàn)"能說會道"。
這是一個"新物種"。
按團隊所說,它擁有多項獨特的核心功能,放眼全球,難找到與之相媲美的產品。對話1分鐘,僅需不到一分錢的成本。
"之前,大模型都是文字輸入,未來,我們將讓大模型明白你的意思。"聲網產品線負責人和利鵬表示。
為了這次的新產品,聲網AI RTE產品線負責人姚光華向《21CBR》記者透露,從春節(jié)開始,公司瘋狂趕工,如同備戰(zhàn)高考,2月18日發(fā)布Public Beta版本,目前該版本已達到可用狀態(tài)。
截至3月7日美股收盤,聲網市值為36億元人民幣。
黑屋作戰(zhàn)
DeepSeek的爆火事件中,聲網的產品團隊發(fā)動了一場關鍵戰(zhàn)役。
在春節(jié)期間,聲網協(xié)調不同部門的核心骨干,組建了一個專門團隊,專注于研發(fā)一款能夠與AI實時互動的工具產品。
早在半年前,這個構想就已經開始醞釀,隨著DeepSeek的浪潮而來,項目的推進速度陡然加快。
"大家關在'小黑屋'里開會, product、研發(fā)等多個條線的負責人集中討論,迅速決策、推進。"姚光華形容稱,這種集思廣益的氛圍類似于高考備戰(zhàn),室內白板上不斷更新著倒計時,提醒大家必須集中力量迎戰(zhàn)。
隨著大模型技術向著多模態(tài)方向不可阻擋地發(fā)展,語音交流被公認為一個重要的切入點。
聲網以做實時互動云服務起家,在音視頻領域積累了較為深厚的功力,他們期望將自家的RTE技術與生成式AI相結合,借此推出新產品搶占制高點。
在除夕當天,聲網上線了首個版本的對話式AI引擎,首批開發(fā)者和客戶紛紛到場,第一項操作就是讓DeepSeek開口致賀新年。
對于聲網而言,這款產品的意義非凡。
和利鵬表示,聲網多年以來專注于人與人的交流,如今轉向人與機器的對話,且要求實現(xiàn)實時互動,這種交流模式的轉變帶來了技術層面的諸多挑戰(zhàn)。
姚光華指出,實現(xiàn)AI語音秒回提問、模擬真實對話節(jié)奏的功能,以及在需要時隨時打斷AI的技術設計,均源自對客戶需求的深入挖掘,而將這些構想轉化為現(xiàn)實,則需要一邊探索一邊實踐,不斷完善。
比如對話人聲鎖定這個功能,就是靠客戶提出來的。姚光華表示,某種程度上,客戶就像一位良師益友,給我們指明了前進的方向。
拆解引擎
之所以叫"對話式AI引擎",也體現(xiàn)了我們的設計理念:我們不設計智能代理,而是專注于構建對話式的工具。姚光華向《21CBR》強調。
在產品命名階段,團隊曾有一段時間,我們還在考慮使用"轉換器"這個詞。寓意接入即可令AI聽懂人說話,但最終我們還是拍板選用了"引擎"。
"轉換器"聽起來更通俗易懂,但聲網選擇的路徑則更加明確:我們專注于提供能力本身,而非與大模型廠商競爭。
"大家在討論AI基礎設施,我們認為,實時互動也是其中一部分。聲網的角色,就是AI基礎設施里的交互。"和利鵬補充道。
他提到,大模型廠商自己從頭做交互,設備、網絡等各種要求都很高。而聲網在這塊已經深耕了十幾年,積累了豐富的經驗和成熟的方案,優(yōu)勢明顯。
姚光華指出,"引擎"拆解后包含AI語音秒回、對話人聲鎖定、智能打斷、全模型適配等多種功能,用"多快好省"四個字就能概括它的核心價值。
其中,在響應延遲方面,我們實現(xiàn)了毫秒級的壓縮,中位數(shù)延遲達到650毫秒。
姚光華指出,市場上有一些產品,宣傳中提到毫秒級響應,但實際測試中發(fā)現(xiàn)這些產品的延遲與宣傳差距較大。
在對話體驗方面,"多通道聲學模型"技術可有效濾除95%的環(huán)境人聲和噪聲干擾,精準捕獲對話人聲信號。即使在80%的丟包率和斷網3-5秒的網絡延遲情況下,也能保持對話的穩(wěn)定流暢進行。
在開發(fā)部署環(huán)節(jié),僅需兩行代碼和15分鐘的時間即可完成。開發(fā)者只需在代碼中填入與復制生成LLM和TTS相關聯(lián)的URL和密鑰,就能快速完成部署。
關于費用問題,經過深入討論和反復斟酌,團隊最終敲定以下價格:AI語音對話服務費為0.098元/分鐘,而作為增值服務的"智能打斷"功能定價為0.042元/分鐘。
為所有開發(fā)者提供1000分鐘免費使用額度。
姚光華表示,經過一段時間的優(yōu)化和實際使用場景調研,團隊發(fā)現(xiàn)用戶與AI每產生一次對話,平均會有約3輪問答,計算下來平均對話時長約為21.1秒,單次成本為3分錢。
若每位開發(fā)者每月使用15次對話功能,那么月均成本不到5分錢,年均成本則僅為5元。
"這是一項足夠便宜到大家都能用得起的解決方案。"姚光華表示。
人機協(xié)作的未來
對話式AI引擎能帶來哪些應用場景?
和利鵬指出,目前已有十幾種應用場景落地,包括智能助手、虛擬陪伴、口語陪練等類型,其中陪伴類應用較為集中,同時智能硬件設備的需求也日益增長。
比如,讓能開口對話的DeepSeek陪伴孩子,解答他們提出的各種問題,就像和父母對話那樣自然。
"小孩子想要的是快速而自然的互動,答案的準確性不是首要考慮的因素。"和利鵬表示。
從人與人到人與機器的互動,對聲網深耕的RTE賽道而言,這是一次重要的延展。
"或許下一個變革,是將所有觸摸式和鍵盤式的交互方式,轉變?yōu)檎Z音式的。"和利鵬向《21CBR》表示。
姚光華指出,關于AI Agent,去年李飛飛博士團隊發(fā)表的論文數(shù)量已經超過 seventy pages,團隊成員每人必須研讀,最終的總結是"從感知到智能"。
他將其分為兩類:陪伴類Agent主要為用戶提供情緒價值,服務類的則提供智能價值,二者合而為一,再增加一層時間價值,以提升用戶的效率。
因此,基于對話式AI引擎驅動的對話式Agent,跨越了模態(tài)感知和模態(tài)融合,成為整合以上三重價值的載體。
技術革新往往帶來翻天覆地的變化。
和利鵬援引OpenAI產品經理的觀點:"AI時代,只要想通60%,產品就應該發(fā)布",強調產品發(fā)布必須緊跟技術發(fā)展,及時進入市場檢驗,并根據反饋持續(xù)迭代。
"目前這個版本,雖然在某些場景下還不夠完美,但用戶體驗已經達到了預期。未來我們將繼續(xù)深化功能的橫向拓展。"姚光華表示。
DeepSeek引領行業(yè),聲網團隊專注于音頻細分領域,至少能喝到好湯。
圖片來源:視覺中國
鬼人化狀態(tài),怪物獵人:荒野雙劍新手必看!雙劍操作指南來了 時間倒流刷任務刷任務新內容,浪人崛起任務錯過解決方法 探索星域暢享升級,《群星紀元》模組系統(tǒng)介紹 捕捉難度4/10的美聲歌鸮,怪物獵人荒野:泡歌鸮與美聲歌鸮的收集方法指南 輕移摘看,《腦洞非常大》奸商行為通關攻略 天塹沙原白晝10區(qū)河畔的治愈,捕捉大回復蜜蟲的技巧 多人聯(lián)機放置RPG新作,Milky Way Idle游戲下載地址在哪里 人工智能的未來,人工智能在中國:從聊天機器人到智能玩具的革命 完美音符釋放,怪物獵人荒野:狩獵笛玩法亮點解析 探秘蛋仔派對質檢合格生存關卡玩法,《蛋仔派對》質檢合格玩法攻略