人工智能技术网

声网&小天才 实时字幕,带来更优质的音视频通话体验

 “90后用 QQ,00后用 Soul,10后用小天才。”从这个时下的互联网段子中,可以看出小天才手表已然在10后心中占据一席之地。

可以立起来翻转、摘下来拍照的炫酷机身、碰一碰加好友的功能,让小天才备受孩子们青睐。但让它真正收获家长信任的,则是它精准的楼层定位技术、高清稳定的视频通话等专业功能。

而小天才今年5月上市的旗舰Z10电话手表不仅延续了之前的专业功能,还联合声网一起探索,增加了视频通话时的实时字幕功能,解决了在嘈杂环境下,音视频外扩声音听不清的难题。

以前在嘈杂环境中用电话手表进行视频通话时,有时会比较难听清对方的声音,就会出现需要将手表贴近耳朵,但又看不清画面的尴尬局面。而小天才旗舰Z10中的实时字幕,通过声网 RTC 云端的语音转文字功能,在视频通话时将对方的讲话实时转写成文字,方便通话者既能看到对方画面,又能通过实时字幕快速获取到对方的讲话信息。

一般来说,智能设备语音转文字的方案有2种:一是端侧实现,因电话手表本身的硬件性能有限,所以 STT (语音转文字)端侧处理难度较大,会导致运算慢、延时高,影响字幕的实时性以及手表功耗增大。二是云端处理实现,声网RTC支持小天才旗舰Z10的实时字幕功能,就是通过云端处理来实现的,通过部署在云端做计算,减轻手表设备侧的性能开销,能够保障音频与字幕的低延时极致体验。

声网的实时字幕功能基于弱网对抗和拥塞控制算法,具有较强的抗弱网能力,能保障文字与语音的高效同步。同时,声网的实时字幕功能灵活支持市面上主流的 STT 方案,做到无感切换,且设备端无需开发工作,通过调用声网云端 API 即可实现该项功能。

除此之外,声网 RTC 技术也保障孩子们在与父母视频通话时,有更高质量、更低功耗、更低延时的实时互动交流体验。具体如下:

全球首个适配RTOS系统的RTC SDK

声网推出了全球首个可以跑在 RTOS 上的 RTC SDK,也是业界最小全功能 RTC 实现,支持最小 200-300K 包体积,主存储器最低内存占用 1.4MB 左右,CPU 占用 30MIPS,持续通话 15 分钟不发烫,以极低的功耗——CPU 最低运算速度需求 300MHz,保障手表的续航能力。

SD-RTN™ 保障电话手表超低延时视频通话

在电话手表的视频通话过程中,如果出现延时与卡顿,就会导致孩子与家长视频通话的过程不太流畅。声网专为实时互动而创建的软件定义实时网SD-RTN™,综合考量了不同地域特点、跨国跨洲链路质量、不同网络类型、不同终端类型、不同业务场景的特征,分别适配不同的传输控制策略,打造一张真正高可用、高可靠、高质量、超低延时的全球实时网络。

双摄支持,最高720P视频画质

在家长与孩子的视频通话场景中,声网的 RTC 解决方案可以支持双摄同开,家长可以同时看到前后双摄像头拍摄的画面。并且,声网的 RTC 解决方案能为小天才旗舰 Z10 在视频通话时提供最高 720P 视频通话画质,让孩子与家长能够高清画质看清对方。

“声网拥有深厚的技术底蕴,通过和不同厂商的接触和评估,发现声网的技术储备能力是最强的。尤其在电话手表是小载体的这一特殊场景下,以及温度、功耗、通话时长等各维度的限制下,声网的实时音视频通话效果都能有很好的体验,希望未来与声网持续保持合作,共同致力于为孩子与家长带来更优质的音视频通话体验。”小天才相关负责人表示。

人工智能技术网 倡导尊重与保护知识产权。如发现本站文章存在版权等问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至1851688011@qq.com我们将及时沟通与处理。!:首页 > 人工智能产业 > VR|虚拟现实 » 声网&小天才 实时字幕,带来更优质的音视频通话体验

感觉不错,很赞哦! ()
分享到:

相关推荐

留言与评论(共有 0 条评论)
   
验证码: