天极传媒:
天极网
比特网
IT专家网
52PK游戏网
极客修
全国分站

北京上海广州深港南京福建沈阳成都杭州西安长春重庆大庆合肥惠州青岛郑州泰州厦门淄博天津无锡哈尔滨

产品
  • 网页
  • 产品
  • 图片
  • 报价
  • 下载
全高清投影机 净化器 4K电视曲面电视小家电滚筒洗衣机
您现在的位置: 天极网 > 网络 > 互联网>新闻>多模态计算成为实现真正智能的刚需

百度发布白皮书:多模态计算成为实现真正智能的刚需

Yesky天极新闻 2018. 12. 21 作者:yu 责编:于欣靓
我要吐槽

责任编辑

  【天极网网络频道】前言:近年来,伴随着人工智能技术的蓬勃发展使得机器智能不断进步,交互模式由单模态向多模态转变的趋势也日益显著,并逐渐从语音、视觉等单模态感知延伸到了多模态融合交互,使机器拥有像人类一样的情感和思维的能力,并且可以像人类一样进行感知,理解和决策。可以说,多模态机器学习正成为未来人工智能发展的必然方向。近日,国际数据公司(IDC)与百度AI产业研究中心(BACC)联合发布了《百度大脑领导力白皮书》,《白皮书》从技术走向、落地实施、应用价值、市场生态四个维度预测了2019年中国人工智能市场的发展趋势。其中提到,融合视觉、语音、语义等多模态计算开始落地。仅能够看清、听清的机器智能已经不能满足人类需求,融合视觉、语音、语义及情感的多模态计算成为实现真正智能的迫切刚需。

  2019年人工智能趋势:多模态计算成为实现真正智能的迫切刚需!

  随着科技的发展,人工智能技术在教育、医疗、金融、零售以及安防等多个领域都有着相关的行业应用。可以说,人工智能技术正在深入到社会生活的各个方面。由于深度学习、大数据的快速发展,多模态机器学习正在成为人工智能领域的研究热点。

  12月20日,国际数据公司(IDC)与百度AI产业研究中心(BACC)联合发布《百度大脑领导力白皮书》(以下简称白皮书)。《白皮书》从技术走向、落地实施、应用价值、市场生态四个维度预测了2019年中国人工智能市场发展趋势,通过实际案例解析人工智能如何从技术到落地,并提出“100天AI部署计划”,为企业部署AI提供战略性指导。

  其中,《白皮书》还提到了,融合视觉、语音、语义等多模态计算开始落地。仅能够看清听清的机器智能已经不能满足人类需求,融合视觉、语音、语义及情感的多模态计算成为实现真正智能的迫切刚需。预计未来三年多模态计算将在实际应用中开始落地。

国际数据公司(IDC)与百度AI产业研究中心(BACC)联合发布的《百度大脑领导力白皮书》

  何为多模态?

  那么,什么是多模态呢?首先要从模态的概念讲起,所谓模态可以被看作是感官,例如:人的触觉、听觉、视觉、嗅觉和味觉。而多模态就是将多种感官进行融合。

  众所周知,人类的感知是多元的,任何感知能力的缺失或退化都有可能造成能力的异常。基于此,多模态机器学习为机器提供多模态数据处理能力以及交互能力。其中,机器与人类的交互模式定义为“多模态交互” ,即通过文字、语音、视觉、等多种方式进行人机交互,模拟人类之间的交互方式。

  值得我们关注的是,近几年来,双模态交互甚至多模态混合交互的解决方案正在从实验室走出来,应用到相关领域。与此同时,多模态深度语义理解已成为各大科技企业的重要研究内容,这些科技企业希望机器能够拥有人类的般的智慧,包括数据、图像、视频、声音及语言等方面的理解。甚至有人认为,多模态机器学习才是真正的人工智能发展方向。

  多模态交互技术的优势是什么?

  一般来说,人工智能的发展分为三个阶段,包括感知智能、认知智能和通用人工智能。感知指语音、语言、图像等;认知指理解、推理、决策、创造等;通用人工智能指类似人类的思维。其中,感知是人机交互中最为重要的一个环节,它为人工智能提供数据基础。

  机器在与人类进行交互时,机器首先要能够听懂人类的语言。如果在正常环境下的语音识别率是很高的,但是如果在一些嘈杂的环境中就无法正常的识别,例如在有很多的人在同时说话,机器将无法进行针对性识别,而多模态交互技术恰恰解决了这一问题。其原理是,将视觉技术融合到语音识别技术中,利用机器视觉技术进行嘴唇识别,来读取说话人的唇语和动作,从而判断每个声音指令的来源,这种将视觉与听觉结合的技术被称为“多模态交互技术”。

  与传统单一的交互模式相比,多模态的交互技术主要基于传感器技术,融合了视觉、听觉、触觉等多种交互方式,表达效率和表达的信息完整度更高,是智能交互的发展趋势。

  写在最后:

  随着物联网、移动智能终端、可穿戴设备的快速普及,人机交互的信息从传统的文字、声音、影像,发展到位置、睡眠、运动等。由于人的感知和认知机理的多模态本质,自然语言处理、人机对话、情感识别等研究领域,越来越多地采用多模态信息处理的方法和思路。

  毫无疑问,人工智能技术未来的发展将基于多模态交互,能够认知整合包括文本、图像、声音等在内的各种信息,从而让人机交互变得更精确、更稳定。可以肯定,多模态相关技术的应用前景将非常的广泛。

作者:yu责任编辑:于欣靓)
请关注天极网天极新媒体 最酷科技资讯
扫码赢大奖
评论
* 网友发言均非本站立场,本站不在评论栏推荐任何网店、经销商,谨防上当受骗!
DIY整机企业级软件