与非网 7 月 27 日讯,据悉,三菱电机宣布,该公司开发了它认为是世界上第一项能够与人类进行高度自然和直观的交互的技术,其基础是将多模态传感信息转换为自然语言的场景感知能力。

 

这种新颖的技术,场景感知互动,融合了三菱电机的专利 Maisart。紧凑的人工智能技术,通过自然语言的生成,分析多模态感知信息,以实现与人类高度自然和直观的交互。

 

这次,作为适用于本技术的应用程序之一,构筑了人与车载机器用自然语言进行对话的路径向导系统。

 

图源:三菱电机

 

通过世界上第一个独特的 End-to-End 深层学习,实现人与设备的顺利沟通,端到端深度学习,只需输入和输出样本即可学习,采用摄像机拍摄的图像信息、麦克风采集的音响信息、骑手或雷达取得的位置信息等多模态传感信息,机器了解周围发生的状况。

 

在多模态传感信息中自动加权重要性高的信息,使用自己的多模态保持法,对机器理解的内容使用自然的语言进行详细表现的学习模型建立起来。

 

通过从设备理解的情况和人的话语历史中生成自然词语,实现了人与设备之间的顺利沟通。与传统的仅有视觉信息的方法相比,CIDEr 评价改善 29%。

 

场景感知的汽车导航交互,一个目标应用程序,将为司机提供直观的路线指导 . 例如,该系统不要求司机“在 50 米内右转”,而是提供场景感知指导,例如“在邮箱前右转”或“跟随灰色汽车向右转”。此外,当预测附近的物体与汽车的路径相交时,该系统将产生语音警告,例如“行人正在过马路”。为了实现这一功能,系统对场景进行分析,识别场景的可分辨、直观的地标和动态元素,然后利用这些识别的对象和事件生成直观的句子作为指导。

 

图源:三菱电机

 

该技术利用深层神经网络在物体识别、视频描述、自然语言生成和口语对话技术等方面的最新进展,使机器能够更好地理解周围环境,更自然、更直观地与人类互动。场景感知的交互技术有望具有广泛的适用性,包括用于车载信息娱乐的人机接口、在建筑和工厂自动化系统中与机器人的交互、监视人的健康和福祉的系统、解释人类复杂场景并鼓励社会距离的监视系统、支持公共场所设备的非接触式操作等。