當你在直播平臺上與主播互動、在視頻會議中侃侃而談,亦或是在線K歌與友人對唱時,實時互動(RTE)云服務就在不知不覺中入侵了你的生活。
近日,聲網發布的首個RTE賽道的全景報告—《實時互動場景創新生態報告》,報告顯示:實時互動作為一種未來數字生活的基礎設施,其賽道潛力不亞于人工智能、大數據、區塊鏈等專業技術賽道,預計2025年,RTE行業將是千億規模市場,5年內復合增長率將達40%以上。
實時互動在為參與者提供便捷的遠程服務的同時,亦為行業注入了新的發展機遇。
根據聲網對國內幾大應用商店在教育、泛娛樂、購物、金融、醫療、企業通訊等行業的近萬個應用進行統計,2021年實時音視頻滲透率已突破30%。
技術驅動實時音視頻爆發
“賣話筒的都開始拓展音視頻業務了。”一位知乎網友吐槽道。
毋庸置疑,實時音視頻市場正處于一個時代的風口之上。但其實早在2013年,以聲網為代表的玩家就開始探索實時音視頻技術。只是在此之前,由于網絡技術、通訊技術的不成熟,實時音視頻技術還“不盡人意”,以至于不被大眾所接受。
之后,在2015-2018年期間,PaaS、SaaS公司如雨后春筍般涌出,出現一波創業熱潮。這種商業模式的出現一定程度上讓創業者們發現了一些類似實時音視頻這樣的“利基市場”。尤其在2015年左右,行業投融資金額和數量達到局部高點。其中即購、網易云信、保利威等近40家企業在這期間入局實時音視頻賽道并先后完成融資。
真正的行業爆發得益于市場環境和技術發展的雙重加持。一方面在疫情的影響下,大眾對云辦公、云教育的需求大幅度上漲,短視頻、網絡直播更是成為全民娛樂方式。另一方面5G、AI、音視頻編解碼、IoT等技術得到了突飛猛進的發展,讓實時互動在社交、辦公、娛樂、教育、工業等各行各業中快速落地,更多的創新場景被解鎖。
在實時互動這樣一個全新的賽道,聲網Agora成為了領域內首家且唯一一家上市企業。根據第三方國際分析機構 IDC 最新出爐的《中國視頻云市場跟蹤(2021 上半年)》報告,詳細調查了在中國音視頻RTC 技術領域的廠商份額,最終的結果是:聲網 Agora 以 43.4% 的占比蟬聯市場份額第一,2021 年上半年份額甚至大于 2-8 位廠商的總和!
實時互動賦能行業場景創新
2021年9月,聲網推出了在線K歌房場景化解決方案,開發者與企業可一站式接入海量正版曲庫與K歌組件、場景功能,快速構建在線K歌房。
聲網通過對音頻在采集端/播放端以及編解碼等環節的延時優化,最終實現了低至 64ms 端到端延時的多人實時合唱體驗。作為對比,即構為多人合唱提供的方案,端到端延遲是76ms。
最有想象力的還是其場景化設置,聲網通過提供九大場景化功能豐富了K歌的形式,繼而在當前的社交趨勢下延伸出對桌游、語音直播嵌入歌房甚至相親等形式的良好支持,探索了社交的新可能,打破商業模式單一的尷尬。
但如果你以為實時互動的運用場景只限于此,那就大錯特錯了,實時互動的大手早已伸向各個行業。
在2021年的RTE大會上,聲網總結和梳理了 20多個行業賽道以及超過 200 個行業場景,并重磅推出“RTE 萬象圖譜”。其中在社交、直播、教育、會議等領域已初步形成成熟場景,并且未來將長期存在。此外,也有大量遠超成熟場景的新萌芽場景,例如線上展會、云演唱會、在線自習室、視頻辦醫保、互動播客等等。從圖譜中可以觀察到,泛娛樂行業50+場景、教育行業30+場景、IoT行業20+場景,分別成為圖譜中場景數量最多的前三大行業。
作為RTE萬象圖譜中場景數量占比最高的泛娛樂行業,“社交+”場景正不斷拓展,依靠RTE連接原本單一的場景,消費者在虛擬與現實兩大層面都能獲得真切的體驗。比如在游戲中舉辦虛擬演唱會,連接音樂受眾;虛擬KTV,社交、音樂、XR融的跨界融合;線上演藝的發展等等等等,在生活當中仍有諸多實時互動創新場景可以挖掘。
實時音視頻亟待解決的痛點
在產品與應用之下,實時音視頻的底層技術主要涉及音頻、視頻與網絡傳輸等。想要提供優異的實時音視頻互動能力,技術廠商就必須要在這些底層技術上做出改進和創新,站在音視頻技術發展的前沿,甚至引領音視頻技術的發展。
但對于正處于高速發展的音視頻賽道而言,發展過程中也面臨諸多困境。
首先是低延遲,如果要實現比較流暢的實時互動,那么單向的端到端的遲延大概要在400毫秒以下才能保證流暢溝通。但事實上多個階段的數據處理、傳輸的過程中都會產生延遲,這個數值很難達到。
在實際環境中,還要考慮邊緣節點的部署、主干網絡擁塞、弱網環境、設備性能、系統性能等問題,所以實際的延時會更大。所以在網絡條件限制下,“低延時”以目前的技術很難達到最大化。
另外是回聲消除的問題,回聲的產生是揚聲器播放的聲音經過環境反射被麥克風重新采集并傳輸給對方,這樣對方就會一直聽到自己的回聲,整個互動體驗會很差。
設備也會極大的影響回聲消除,比如國內某手機廠商,從麥克風采集音頻數據到提交中間有將近一百毫秒的延遲,這時回聲消除算法如何適應這么長回聲延遲的手機就很關鍵。再比如很多用戶在直播中都會用外置聲卡,甚至是模擬器,這無形中也會帶來回聲的延遲。
除了設備,場地同樣存在很大的相關性,對于普通會議室,設置 40米的回聲延遲可能已經足夠了,但一些大會場這種回聲延遲能達到將近上百米,這也是一種挑戰。
除此之外,音視頻賽道目前在流暢性、海量并發等諸多方面仍存在技術痛點,亟待解決。