- 游戲策略揭秘,《深淵塔防》種族顏色以及搭配介紹
- 解密任務(wù)指南,《心動(dòng)小鎮(zhèn)手游》幫助凱凱的人介紹
- 《植物大戰(zhàn)僵尸雜交版》黃油憂郁菇2通關(guān)攻略
- 精彩活動(dòng)指南,《第五人格》夏日水上運(yùn)動(dòng)會(huì)玩法介紹
- 游戲攻略揭示,《心動(dòng)小鎮(zhèn)》蝌蚪釣魚時(shí)間地點(diǎn)分享
- 游戲策略初探,《飛艇英雄》火屬性騎士陣容搭配攻略
- 攻略指南輕松完成任務(wù)步驟,《心動(dòng)小鎮(zhèn)》波叔喜歡食物任務(wù)攻略
- 游戲攻略指南,《心動(dòng)小鎮(zhèn)手游》移動(dòng)家具方法
- 《植物大戰(zhàn)僵尸雜交版》黃油憂郁菇3通關(guān)攻略
- 探秘游戲活動(dòng)獎(jiǎng)勵(lì)策略,《咸魚之王》招募周招募令需求數(shù)量一覽
聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。
記者|何己派
編輯|鄢子為
一家上海公司,幫助DeepSeek像真人一樣開口說話。
3月上旬,聲網(wǎng)發(fā)布對(duì)話式AI引擎,僅需兩行代碼,15分鐘即可讓任何文本大模型實(shí)現(xiàn)"能說會(huì)道"。
這是一個(gè)"新物種"。
按團(tuán)隊(duì)所說,它擁有多項(xiàng)獨(dú)特的核心功能,放眼全球,難找到與之相媲美的產(chǎn)品。對(duì)話1分鐘,僅需不到一分錢的成本。
"之前,大模型都是文字輸入,未來,我們將讓大模型明白你的意思。"聲網(wǎng)產(chǎn)品線負(fù)責(zé)人和利鵬表示。
為了這次的新產(chǎn)品,聲網(wǎng)AI RTE產(chǎn)品線負(fù)責(zé)人姚光華向《21CBR》記者透露,從春節(jié)開始,公司瘋狂趕工,如同備戰(zhàn)高考,2月18日發(fā)布Public Beta版本,目前該版本已達(dá)到可用狀態(tài)。
截至3月7日美股收盤,聲網(wǎng)市值為36億元人民幣。
黑屋作戰(zhàn)
DeepSeek的爆火事件中,聲網(wǎng)的產(chǎn)品團(tuán)隊(duì)發(fā)動(dòng)了一場關(guān)鍵戰(zhàn)役。
在春節(jié)期間,聲網(wǎng)協(xié)調(diào)不同部門的核心骨干,組建了一個(gè)專門團(tuán)隊(duì),專注于研發(fā)一款能夠與AI實(shí)時(shí)互動(dòng)的工具產(chǎn)品。
早在半年前,這個(gè)構(gòu)想就已經(jīng)開始醞釀,隨著DeepSeek的浪潮而來,項(xiàng)目的推進(jìn)速度陡然加快。
"大家關(guān)在'小黑屋'里開會(huì), product、研發(fā)等多個(gè)條線的負(fù)責(zé)人集中討論,迅速?zèng)Q策、推進(jìn)。"姚光華形容稱,這種集思廣益的氛圍類似于高考備戰(zhàn),室內(nèi)白板上不斷更新著倒計(jì)時(shí),提醒大家必須集中力量迎戰(zhàn)。
隨著大模型技術(shù)向著多模態(tài)方向不可阻擋地發(fā)展,語音交流被公認(rèn)為一個(gè)重要的切入點(diǎn)。
聲網(wǎng)以做實(shí)時(shí)互動(dòng)云服務(wù)起家,在音視頻領(lǐng)域積累了較為深厚的功力,他們期望將自家的RTE技術(shù)與生成式AI相結(jié)合,借此推出新產(chǎn)品搶占制高點(diǎn)。
在除夕當(dāng)天,聲網(wǎng)上線了首個(gè)版本的對(duì)話式AI引擎,首批開發(fā)者和客戶紛紛到場,第一項(xiàng)操作就是讓DeepSeek開口致賀新年。
對(duì)于聲網(wǎng)而言,這款產(chǎn)品的意義非凡。
和利鵬表示,聲網(wǎng)多年以來專注于人與人的交流,如今轉(zhuǎn)向人與機(jī)器的對(duì)話,且要求實(shí)現(xiàn)實(shí)時(shí)互動(dòng),這種交流模式的轉(zhuǎn)變帶來了技術(shù)層面的諸多挑戰(zhàn)。
姚光華指出,實(shí)現(xiàn)AI語音秒回提問、模擬真實(shí)對(duì)話節(jié)奏的功能,以及在需要時(shí)隨時(shí)打斷AI的技術(shù)設(shè)計(jì),均源自對(duì)客戶需求的深入挖掘,而將這些構(gòu)想轉(zhuǎn)化為現(xiàn)實(shí),則需要一邊探索一邊實(shí)踐,不斷完善。
比如對(duì)話人聲鎖定這個(gè)功能,就是靠客戶提出來的。姚光華表示,某種程度上,客戶就像一位良師益友,給我們指明了前進(jìn)的方向。
拆解引擎
之所以叫"對(duì)話式AI引擎",也體現(xiàn)了我們的設(shè)計(jì)理念:我們不設(shè)計(jì)智能代理,而是專注于構(gòu)建對(duì)話式的工具。姚光華向《21CBR》強(qiáng)調(diào)。
在產(chǎn)品命名階段,團(tuán)隊(duì)曾有一段時(shí)間,我們還在考慮使用"轉(zhuǎn)換器"這個(gè)詞。寓意接入即可令A(yù)I聽懂人說話,但最終我們還是拍板選用了"引擎"。
"轉(zhuǎn)換器"聽起來更通俗易懂,但聲網(wǎng)選擇的路徑則更加明確:我們專注于提供能力本身,而非與大模型廠商競爭。
"大家在討論AI基礎(chǔ)設(shè)施,我們認(rèn)為,實(shí)時(shí)互動(dòng)也是其中一部分。聲網(wǎng)的角色,就是AI基礎(chǔ)設(shè)施里的交互。"和利鵬補(bǔ)充道。
他提到,大模型廠商自己從頭做交互,設(shè)備、網(wǎng)絡(luò)等各種要求都很高。而聲網(wǎng)在這塊已經(jīng)深耕了十幾年,積累了豐富的經(jīng)驗(yàn)和成熟的方案,優(yōu)勢(shì)明顯。
姚光華指出,"引擎"拆解后包含AI語音秒回、對(duì)話人聲鎖定、智能打斷、全模型適配等多種功能,用"多快好省"四個(gè)字就能概括它的核心價(jià)值。
其中,在響應(yīng)延遲方面,我們實(shí)現(xiàn)了毫秒級(jí)的壓縮,中位數(shù)延遲達(dá)到650毫秒。
姚光華指出,市場上有一些產(chǎn)品,宣傳中提到毫秒級(jí)響應(yīng),但實(shí)際測試中發(fā)現(xiàn)這些產(chǎn)品的延遲與宣傳差距較大。
在對(duì)話體驗(yàn)方面,"多通道聲學(xué)模型"技術(shù)可有效濾除95%的環(huán)境人聲和噪聲干擾,精準(zhǔn)捕獲對(duì)話人聲信號(hào)。即使在80%的丟包率和斷網(wǎng)3-5秒的網(wǎng)絡(luò)延遲情況下,也能保持對(duì)話的穩(wěn)定流暢進(jìn)行。
在開發(fā)部署環(huán)節(jié),僅需兩行代碼和15分鐘的時(shí)間即可完成。開發(fā)者只需在代碼中填入與復(fù)制生成LLM和TTS相關(guān)聯(lián)的URL和密鑰,就能快速完成部署。
關(guān)于費(fèi)用問題,經(jīng)過深入討論和反復(fù)斟酌,團(tuán)隊(duì)最終敲定以下價(jià)格:AI語音對(duì)話服務(wù)費(fèi)為0.098元/分鐘,而作為增值服務(wù)的"智能打斷"功能定價(jià)為0.042元/分鐘。
為所有開發(fā)者提供1000分鐘免費(fèi)使用額度。
姚光華表示,經(jīng)過一段時(shí)間的優(yōu)化和實(shí)際使用場景調(diào)研,團(tuán)隊(duì)發(fā)現(xiàn)用戶與AI每產(chǎn)生一次對(duì)話,平均會(huì)有約3輪問答,計(jì)算下來平均對(duì)話時(shí)長約為21.1秒,單次成本為3分錢。
若每位開發(fā)者每月使用15次對(duì)話功能,那么月均成本不到5分錢,年均成本則僅為5元。
"這是一項(xiàng)足夠便宜到大家都能用得起的解決方案。"姚光華表示。
人機(jī)協(xié)作的未來
對(duì)話式AI引擎能帶來哪些應(yīng)用場景?
和利鵬指出,目前已有十幾種應(yīng)用場景落地,包括智能助手、虛擬陪伴、口語陪練等類型,其中陪伴類應(yīng)用較為集中,同時(shí)智能硬件設(shè)備的需求也日益增長。
比如,讓能開口對(duì)話的DeepSeek陪伴孩子,解答他們提出的各種問題,就像和父母對(duì)話那樣自然。
"小孩子想要的是快速而自然的互動(dòng),答案的準(zhǔn)確性不是首要考慮的因素。"和利鵬表示。
從人與人到人與機(jī)器的互動(dòng),對(duì)聲網(wǎng)深耕的RTE賽道而言,這是一次重要的延展。
"或許下一個(gè)變革,是將所有觸摸式和鍵盤式的交互方式,轉(zhuǎn)變?yōu)檎Z音式的。"和利鵬向《21CBR》表示。
姚光華指出,關(guān)于AI Agent,去年李飛飛博士團(tuán)隊(duì)發(fā)表的論文數(shù)量已經(jīng)超過 seventy pages,團(tuán)隊(duì)成員每人必須研讀,最終的總結(jié)是"從感知到智能"。
他將其分為兩類:陪伴類Agent主要為用戶提供情緒價(jià)值,服務(wù)類的則提供智能價(jià)值,二者合而為一,再增加一層時(shí)間價(jià)值,以提升用戶的效率。
因此,基于對(duì)話式AI引擎驅(qū)動(dòng)的對(duì)話式Agent,跨越了模態(tài)感知和模態(tài)融合,成為整合以上三重價(jià)值的載體。
技術(shù)革新往往帶來翻天覆地的變化。
和利鵬援引OpenAI產(chǎn)品經(jīng)理的觀點(diǎn):"AI時(shí)代,只要想通60%,產(chǎn)品就應(yīng)該發(fā)布",強(qiáng)調(diào)產(chǎn)品發(fā)布必須緊跟技術(shù)發(fā)展,及時(shí)進(jìn)入市場檢驗(yàn),并根據(jù)反饋持續(xù)迭代。
"目前這個(gè)版本,雖然在某些場景下還不夠完美,但用戶體驗(yàn)已經(jīng)達(dá)到了預(yù)期。未來我們將繼續(xù)深化功能的橫向拓展。"姚光華表示。
DeepSeek引領(lǐng)行業(yè),聲網(wǎng)團(tuán)隊(duì)專注于音頻細(xì)分領(lǐng)域,至少能喝到好湯。
圖片來源:視覺中國
宣布對(duì)鋼鋁征稅3月12日起生效,美商務(wù)部長加征25%關(guān)稅 小問題大危害,貧血、肛周感染及痔瘡危害,別忽視了! 鄭州航空港算力創(chuàng)新,河南加速布局算力建設(shè) 星際探索,《星球重啟》全食材坐標(biāo)位置一覽 全新探歌即將上市,大眾全新SUV亮相,首次采用燃油混動(dòng)技術(shù),外觀設(shè)計(jì)借鑒途觀L 特朗普與澤連斯基激烈會(huì)晤,美烏領(lǐng)導(dǎo)人激烈爭執(zhí),未能達(dá)成礦產(chǎn)協(xié)議,形同陌路 Two Rising Stars黃子佼 vs劉亞仁,韓國網(wǎng)友反對(duì)失敗,劉亞仁3月復(fù)出涉毒不坐牢還能混圈 痔瘡患者做腸鏡會(huì)很痛嗎,健康課:痔瘡患者:做腸鏡真的疼嗎? 停頓與和平美國對(duì)烏政策的新挑戰(zhàn),標(biāo)題改寫:美國切斷情報(bào)支持,烏克蘭總統(tǒng)澤連斯基呼吁和平解決沖突 11月21日 迷你世界兌換碼,迷你世界11月21碼分享