- 游戲攻略指南,《妄想山?!泛Mㄉ衲精@取方法
- 解鎖技巧,《隱匿按鈕》第29關通關攻略
- 陣容搭配指南,《微微三國》最強陣容搭配推薦
- 指南揭秘,《絕區(qū)零》野火鎮(zhèn)樂于助人獎章5獲取方法
- 探索迷你世界創(chuàng)意技巧,《迷你世界》時鐘制作方法
- 游戲福利揭秘,《如鳶》月卡福利一覽
- 任務攻略指南,《絕區(qū)零》組織體檢的凱撒任務攻略
- 任務攻略指南,《絕區(qū)零》長發(fā)閃亮任務攻略
- 通關技巧分享,《隱匿按鈕》第28關通關攻略
- 任務攻略解鎖技巧,《絕區(qū)零》戰(zhàn)戰(zhàn)兢兢的來客任務攻略
聲明:本文來自于(ID:ykqsd.com)授權轉載發(fā)布。
記者|何己派
編輯|鄢子為
一家上海公司,幫助DeepSeek像真人一樣開口說話。
3月上旬,聲網發(fā)布對話式AI引擎,僅需兩行代碼,15分鐘即可讓任何文本大模型實現"能說會道"。
這是一個"新物種"。
按團隊所說,它擁有多項獨特的核心功能,放眼全球,難找到與之相媲美的產品。對話1分鐘,僅需不到一分錢的成本。
"之前,大模型都是文字輸入,未來,我們將讓大模型明白你的意思。"聲網產品線負責人和利鵬表示。
為了這次的新產品,聲網AI RTE產品線負責人姚光華向《21CBR》記者透露,從春節(jié)開始,公司瘋狂趕工,如同備戰(zhàn)高考,2月18日發(fā)布Public Beta版本,目前該版本已達到可用狀態(tài)。
截至3月7日美股收盤,聲網市值為36億元人民幣。
黑屋作戰(zhàn)
DeepSeek的爆火事件中,聲網的產品團隊發(fā)動了一場關鍵戰(zhàn)役。
在春節(jié)期間,聲網協(xié)調不同部門的核心骨干,組建了一個專門團隊,專注于研發(fā)一款能夠與AI實時互動的工具產品。
早在半年前,這個構想就已經開始醞釀,隨著DeepSeek的浪潮而來,項目的推進速度陡然加快。
"大家關在'小黑屋'里開會, product、研發(fā)等多個條線的負責人集中討論,迅速決策、推進。"姚光華形容稱,這種集思廣益的氛圍類似于高考備戰(zhàn),室內白板上不斷更新著倒計時,提醒大家必須集中力量迎戰(zhàn)。
隨著大模型技術向著多模態(tài)方向不可阻擋地發(fā)展,語音交流被公認為一個重要的切入點。
聲網以做實時互動云服務起家,在音視頻領域積累了較為深厚的功力,他們期望將自家的RTE技術與生成式AI相結合,借此推出新產品搶占制高點。
在除夕當天,聲網上線了首個版本的對話式AI引擎,首批開發(fā)者和客戶紛紛到場,第一項操作就是讓DeepSeek開口致賀新年。
對于聲網而言,這款產品的意義非凡。
和利鵬表示,聲網多年以來專注于人與人的交流,如今轉向人與機器的對話,且要求實現實時互動,這種交流模式的轉變帶來了技術層面的諸多挑戰(zhàn)。
姚光華指出,實現AI語音秒回提問、模擬真實對話節(jié)奏的功能,以及在需要時隨時打斷AI的技術設計,均源自對客戶需求的深入挖掘,而將這些構想轉化為現實,則需要一邊探索一邊實踐,不斷完善。
比如對話人聲鎖定這個功能,就是靠客戶提出來的。姚光華表示,某種程度上,客戶就像一位良師益友,給我們指明了前進的方向。
拆解引擎
之所以叫"對話式AI引擎",也體現了我們的設計理念:我們不設計智能代理,而是專注于構建對話式的工具。姚光華向《21CBR》強調。
在產品命名階段,團隊曾有一段時間,我們還在考慮使用"轉換器"這個詞。寓意接入即可令AI聽懂人說話,但最終我們還是拍板選用了"引擎"。
"轉換器"聽起來更通俗易懂,但聲網選擇的路徑則更加明確:我們專注于提供能力本身,而非與大模型廠商競爭。
"大家在討論AI基礎設施,我們認為,實時互動也是其中一部分。聲網的角色,就是AI基礎設施里的交互。"和利鵬補充道。
他提到,大模型廠商自己從頭做交互,設備、網絡等各種要求都很高。而聲網在這塊已經深耕了十幾年,積累了豐富的經驗和成熟的方案,優(yōu)勢明顯。
姚光華指出,"引擎"拆解后包含AI語音秒回、對話人聲鎖定、智能打斷、全模型適配等多種功能,用"多快好省"四個字就能概括它的核心價值。
其中,在響應延遲方面,我們實現了毫秒級的壓縮,中位數延遲達到650毫秒。
姚光華指出,市場上有一些產品,宣傳中提到毫秒級響應,但實際測試中發(fā)現這些產品的延遲與宣傳差距較大。
在對話體驗方面,"多通道聲學模型"技術可有效濾除95%的環(huán)境人聲和噪聲干擾,精準捕獲對話人聲信號。即使在80%的丟包率和斷網3-5秒的網絡延遲情況下,也能保持對話的穩(wěn)定流暢進行。
在開發(fā)部署環(huán)節(jié),僅需兩行代碼和15分鐘的時間即可完成。開發(fā)者只需在代碼中填入與復制生成LLM和TTS相關聯(lián)的URL和密鑰,就能快速完成部署。
關于費用問題,經過深入討論和反復斟酌,團隊最終敲定以下價格:AI語音對話服務費為0.098元/分鐘,而作為增值服務的"智能打斷"功能定價為0.042元/分鐘。
為所有開發(fā)者提供1000分鐘免費使用額度。
姚光華表示,經過一段時間的優(yōu)化和實際使用場景調研,團隊發(fā)現用戶與AI每產生一次對話,平均會有約3輪問答,計算下來平均對話時長約為21.1秒,單次成本為3分錢。
若每位開發(fā)者每月使用15次對話功能,那么月均成本不到5分錢,年均成本則僅為5元。
"這是一項足夠便宜到大家都能用得起的解決方案。"姚光華表示。
人機協(xié)作的未來
對話式AI引擎能帶來哪些應用場景?
和利鵬指出,目前已有十幾種應用場景落地,包括智能助手、虛擬陪伴、口語陪練等類型,其中陪伴類應用較為集中,同時智能硬件設備的需求也日益增長。
比如,讓能開口對話的DeepSeek陪伴孩子,解答他們提出的各種問題,就像和父母對話那樣自然。
"小孩子想要的是快速而自然的互動,答案的準確性不是首要考慮的因素。"和利鵬表示。
從人與人到人與機器的互動,對聲網深耕的RTE賽道而言,這是一次重要的延展。
"或許下一個變革,是將所有觸摸式和鍵盤式的交互方式,轉變?yōu)檎Z音式的。"和利鵬向《21CBR》表示。
姚光華指出,關于AI Agent,去年李飛飛博士團隊發(fā)表的論文數量已經超過 seventy pages,團隊成員每人必須研讀,最終的總結是"從感知到智能"。
他將其分為兩類:陪伴類Agent主要為用戶提供情緒價值,服務類的則提供智能價值,二者合而為一,再增加一層時間價值,以提升用戶的效率。
因此,基于對話式AI引擎驅動的對話式Agent,跨越了模態(tài)感知和模態(tài)融合,成為整合以上三重價值的載體。
技術革新往往帶來翻天覆地的變化。
和利鵬援引OpenAI產品經理的觀點:"AI時代,只要想通60%,產品就應該發(fā)布",強調產品發(fā)布必須緊跟技術發(fā)展,及時進入市場檢驗,并根據反饋持續(xù)迭代。
"目前這個版本,雖然在某些場景下還不夠完美,但用戶體驗已經達到了預期。未來我們將繼續(xù)深化功能的橫向拓展。"姚光華表示。
DeepSeek引領行業(yè),聲網團隊專注于音頻細分領域,至少能喝到好湯。
圖片來源:視覺中國
AR眼鏡蘋果的未來創(chuàng)新突破,蘋果調整可穿戴設備策略:Vision Pro表現不佳,AR眼鏡崛起 牛牛將牛肉放到正確位置解謎放置順序,《文字來找茬》牛肉歸位攻略 大贏家瘋了溫尚言跨界途道教育股價瘋狂漲勢,吳彥祖推出新英語課,398元,合作公司股價大漲! 藍空下的光影,有生之年,又被他治愈一次! 忙碌的黃圣依自由飛翔的光芒,黃圣依轉型成功,女明星破繭:婚姻不是終點,事業(yè)才是底氣 《星球重啟》磁能模塊解謎技巧合集,《星球重啟》磁能鎖解謎攻略 夾子和勺子,《文字來找茬》火鍋自助通關攻略 醫(yī)學知識,孕婦痔瘡怎么辦?健康課教會您正確的緩解方法 巴黎的朋友,久違的巴黎,久違的秀場 新任加拿大總理他將如何改變政策,特魯多黯然離場 加拿大新總理什么來頭?