(EN) An artificial intelligence-based control method and system for an intelligent interaction device, and an intelligent interaction device. The method comprises: receiving multi-modal input signals, the multi-modal input signals comprising an image signal, a sound signal, and/or a distance signal input by a user (S101); performing human face detection according to the image signal, and acquiring, when a human face is detected, a human face image and human face information (S102); performing lip region detection according to the human face image, to determine the motion condition of the lip region(S103); positioning a sound source according to the sound signal, to obtain information about the sound source (S104); determining the interaction intention of the user and the intensity degree of the interaction intention according to the human face information, the motion condition of the lip region, the information about the sound source, and/or the distance signal(S105); and controlling, according to the interaction intention of the user and the intensity degree of the interaction intention, an intelligent interaction device to perform a corresponding interaction response (S106). By means of the method, the interaction experience of a user during interaction with an intelligent interaction device is improved, and the intelligence of the intelligent interaction device is improved.
(FR) L'invention concerne un procédé et un système de commande basés sur l'intelligence artificielle d'un dispositif d'interaction intelligent, et un dispositif d'interaction intelligent. Le procédé consiste à : recevoir des signaux d'entrée multimodaux qui comprennent un signal d'image, un signal sonore et/ou un signal de distance introduits par un utilisateur (S101) ; effectuer la détection de visage humain selon le signal d'image, et acquérir, lorsqu'un visage humain est détecté, des informations relatives à l'image de visage humain et des informations relatives au visage humain (S102) ; effectuer la détection de la région des lèvres selon l'image de visage humain afin de déterminer l'état de mobilité de la région des lèvres (S103) ; positionner une source sonore en fonction du signal sonore afin d'obtenir des informations relatives à la source sonore (S104) ; déterminer l'intention d'interaction de l'utilisateur et le niveau d'intensité de l'intention d'interaction selon les informations relatives au visage humain, à l'état de mobilité de la région des lèvres, et les informations relatives à la source sonore et/ou au signal de distance (S105) ; et commander, selon l'intention d'interaction de l'utilisateur et le niveau d''intensité de l'intention d'interaction, un dispositif d'interaction intelligent pour générer une réponse d'interaction correspondante (S106). A l'aide de ce procédé, l'expérience d'interaction d'un utilisateur pendant l'interaction avec un dispositif d'interaction intelligent est améliorée, de même que l'intelligence du dispositif d'interaction intelligent.
(ZH) 一种基于人工智能的智能交互设备控制方法、系统及智能交互设备,方法包括:接收多模态的输入信号,多模态的输入信号包括用户输入的图像信号、声音信号和/或距离信号(S101);根据图像信号进行人脸检测,并在检测到有人脸时,获取人脸图像和人脸信息(S102);根据人脸图像进行唇区检测以确定唇区运动情况(S103);根据声音信号进行声源定位以得到声源信息(S104);根据人脸信息、唇区运动情况、声源信息和/或距离信号判断用户的交互意愿以及交互意愿强烈程度(S105);根据用户的交互意愿以及交互意愿强烈程度控制所述智能交互设备进行相应的交互响应(S106)。该方法能够提升用户与智能交互设备的交互体验,提升智能交互设备的智能性。