WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
maximize
Machine translation
1. (WO2016095380) INSTANT MESSAGING METHOD AND DEVICE

说明书

发明名称 0001   0002   0003   0004   0005   0006   0007   0008   0009   0010   0011   0012   0013   0014   0015   0016   0017   0018   0019   0020   0021   0022   0023   0024   0025   0026   0027   0028   0029   0030   0031   0032   0033   0034   0035   0036   0037   0038   0039   0040   0041   0042   0043   0044   0045   0046   0047   0048   0049   0050   0051   0052   0053   0054   0055   0056   0057   0058   0059   0060   0061   0062   0063   0064   0065   0066   0067   0068   0069   0070   0071   0072   0073   0074   0075   0076   0077   0078   0079   0080   0081   0082   0083   0084   0085   0086   0087   0088   0089   0090   0091   0092   0093   0094   0095   0096  

权利要求书

1   2   3   4   5   6   7   8   9   10   11   12   13  

附图

0001   0002  

说明书

发明名称 : 一种即时通讯方法及装置

技术领域

[0001]
本文涉及即时通讯技术领域,具体涉及一种即时通讯方法及装置。

背景技术

[0002]
即时通讯满足了人们对信息交互的需求,已经得到广泛的应用。随着人们对信息沟通的需求的发展,人们已经不再满足于简单的文本信息交互,更希望在即时通讯过程中能够直观的看到对方,即希望通过视频形式的即时通讯,来更好的进行交流。
[0003]
相关技术已出现了很多支持视频通讯的即时通讯服务和应用程序。这些应用程序和服务在具有良好网络带宽的网络环境下,能够大大增强即时通讯的现场感,极大的满足了人们的需求。然而,相关技术在实现视频通讯时,需要终端处装备有可以采用用户图像的摄像头,并将采集到的图像数据上传到服务器。因此,若用户终端处没有摄像头,则无法进行视频通讯。另外,视频图像数据通常数据量较大,对网络传输带宽要求较高,在端对端带宽无法保证时,视频通讯的图像和声音经常会出现卡顿,这将严重影响视频通讯的使用体验。
[0004]
发明内容
[0005]
本发明实施例提供一种即时通讯方法及装置,用以解决降低视频通讯的要求,以更好的满足用户视频通讯的需求的技术问题。
[0006]
为解决上述技术问题,本发明实施例提供的即时通讯方法,包括:
[0007]
获取第一用户向第二用户发送的语音信息;
[0008]
根据预先确定第一用户的第一用户头像模型,生成一图像画面;
[0009]
将所述图像画面与所述语音信息进行整合,得到一包含有所述图像画面和语音信息的视频流;
[0010]
将所述视频流展示给所述第二用户。
[0011]
其中,上述方法中,所述获取第一用户向第二用户发送的语音信息,包括:
[0012]
接收第一用户向第二用户发送的语音信息,或,接收第一用户向第二用户发送的文本信息,通过文本语音转换,得到所述文本信息对应的语音信息。
[0013]
其中,上述方法中,所述获取第一用户向第二用户发送的语音信息,包括:
[0014]
检测第一用户的上行传输带宽;
[0015]
在所述上行传输带宽小于预设第一门限时,提示第一用户仅发送文本信息或语音信号;
[0016]
接收第一用户向第二用户发送的语音信息,或,接收第一用户向第二用户发送的文本信息,通过文本语音转换,得到所述文本信息对应的语音信息。
[0017]
其中,上述方法中,所述方法还包括:在所述获取第一用户向第二用户发送的语音信息之前,
[0018]
获取第一用户的用户头像和用户特征信息,所述用户特征信息至少包括第一用户的性别和年龄;
[0019]
从预先建立的系统用户模型中,确定与第一用户的用户特征信息相对应的用户模型;
[0020]
从所述用户头像中提取第一用户的面部皮肤纹理,将所述面部皮肤纹理与所述第一用户对应的用户模型相绑定,得到所述第一用户头像模型。
[0021]
其中,上述方法中,所述根据预先确定第一用户的第一用户头像模型,生成一图像画面,包括:
[0022]
解析所述语音信息,确定所述语音信息对应的面部表情;
[0023]
根据所确定的面部表情,控制所述第一用户头像模型生成与所述面部表情相对应的面部动作,得到所述图像画面。
[0024]
其中,上述方法中,所述将所述视频流展示给所述第二用户,包括:
[0025]
将所述视频流发送至所述第二用户对应的终端,以通过该终端播放所述视频流。
[0026]
本发明实施例还提供了一种即时通讯装置,包括:
[0027]
第一获取单元,设置为获取第一用户向第二用户发送的语音信息;
[0028]
生成单元,设置为根据预先确定第一用户的第一用户头像模型,生成一图像画面;
[0029]
整合单元,设置为将所述图像画面与所述语音信息进行整合,得到一包含有所述图像画面和语音信息的视频流;
[0030]
展示单元,设置为将所述视频流显示给所述第二用户。
[0031]
其中,上述装置中,所述第一获取单元,是设置为接收第一用户向第二用户发送的语音信号,得到所述语音信息;或者,接收第一用户向第二用户发送的文本信息,通过文本语音转换,得到所述文本信息对应的语音信息。
[0032]
其中,上述装置中,所述第一获取单元包括:
[0033]
检测单元,设置为检测第一用户的上行传输带宽;
[0034]
提示单元,设置为在所述上行传输带宽小于预设第一门限时,提示第一用户仅发送文本信息或语音信号;
[0035]
接收单元,设置为接收第一用户向第二用户发送的语音信息,或,接收第一用户向第二用户发送的文本信息,通过文本语音转换,得到所述文本信息对应的语音信息。
[0036]
其中,上述装置还包括:
[0037]
第二获取单元,设置为获取第一用户的用户头像和用户特征信息,所述用户特征信息至少包括第一用户的性别和年龄;
[0038]
确定单元,设置为从预先建立的系统用户模型中,确定与第一用户的用户特征信息相对应的用户模型;
[0039]
绑定单元,设置为从所述用户头像中提取第一用户的面部皮肤纹理,将所述面部皮肤纹理与所述第一用户对应的用户模型相绑定,得到所述第一用户头像模型。
[0040]
其中,上述装置中,所述生成单元包括:
[0041]
解析单元,设置为解析所述语音信息,确定所述语音信息对应的面部表情;
[0042]
控制处理单元,设置为根据所确定的面部表情,控制所述第一用户头像模型生成与所述面部表情相对应的面部动作,得到所述图像画面。
[0043]
其中,上述装置中,所述展示单元,是设置为将所述视频流发送至所述第二用户对应的终端,以通过该终端播放所述视频流。
[0044]
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令用于上述的方法。
[0045]
与相关技术相比,本发明实施例提供的即时通讯方法及装置,至少具有以下有益效果:第一用户不需要实时采集和传输其本地图像数据,因此第一用户不需要在本地设置摄像头,降低了终端的设备成本,同时还减少了视频通讯过程中网络数据量,降低了网络数据传输压力。并且,由于第一用户仅上传其欲发送的文本信息/语音信息,因此对该第一用户的网络接入带宽要求较低,即使在其网络带宽条件较差时,也能够在第二用户处播放第一用户的图像画面,满足用户的视频通讯需求。
[0046]
附图概述
[0047]
图1为本发明实施例提供的即时通讯方法的流程示意图;
[0048]
图2为本发明实施例提供的即时通讯装置的结构示意图。
[0049]
本发明的较佳实施方式
[0050]
下面将结合附图及具体实施例进行详细描述。
[0051]
相关视频即时通讯需要终端处安装有摄像头,且对终端的网络接入带宽有一定的要求,如果终端没有安装摄像头或者终端的网络接入带宽无法保证时,会导致视频通讯不可用或者视频通讯效果很差,无法很好的满足人们对于视频通讯的需求。为解决上述问题,本发明实施例提出了一种即时通讯方法,预先建立用户的用户头像模型,在视频通讯时仅需要获取用户希望传送的文本信息或语音信息,基于文本信息/语音信息与用户头像模型,生成包含有图像画面和语音的视频流,实现了视频通讯的效果。下面将结合附图,通过具体实施例对本发明做进一步的说明。
[0052]
请参照图1,本发明实施例提供的一种即时通讯方法,可应用于一视频通讯服务器,如图1所示,该方法包括:
[0053]
步骤11,获取第一用户向第二用户发送的语音信息。
[0054]
这里,第一用户在需要向第二用户进行即时通讯时,可以直接发送欲传送的语音信息或文本信息。对应的,视频服务器可以接收第一用户向第二用户发送的语音信息,或者,接收第一用户向第二用户发送的文本信息,并通过文本语音转换,得到所述文本信息对应的语音信息。
[0055]
考虑到第一用户的上行传输带宽,若该带宽较小难以上传视频图像时,可以提示第一终端仅上传其所欲发送的文本信息/语音信息,即,本发明实施例可以预先检测第一用户的上行传输带宽,并在所述上行传输带宽小于预设第一门限(该门限可以根据视频流传递要求的下限进行设置)时,提示第一用户仅发送文本信息或语音信号。这样,第一用户根据该提示发送相应的信息,视频服务器即可接收第一用户向第二用户发送的语音信息,或,接收第一用户向第二用户发送的文本信息,通过文本语音转换,得到所述文本信息对应的语音信息。
[0056]
步骤12,根据预先确定的第一用户的头像模型,生成一图像画面。
[0057]
这里,可以控制第一用户头像模型按照预设方式运动,以获得一活动的图像画面。
[0058]
当然,还可以进一步结合语音信息,即同时根据所述语音信息和所述第一用户头像模型生成所述图像画面,可选的,可以通过解析所述语音信息,确定所述语音信息对应的面部表情(例如,通过解析根据语音信息,确定语音信息的语调语气,如疑问语调、普通的陈述语调等等,再确定与该语调语气对应的面部表情);再根据所确定的面部表情,控制所述第一用户头像模型生成与所述面部表情相对应的面部动作,得到所述图像画面。
[0059]
步骤13,将所述图像画面与所述语音信息进行整合,得到一包含有所述图像画面和语音信息的视频流。
[0060]
这里,可以根据视频流的帧速率,将图像画面与语音信息进行整合,以获得合适大小的视频流。
[0061]
步骤14,将所述视频流展示给所述第二用户。
[0062]
可选的,可以将所述视频流发送至所述第二用户对应的终端,以通过该终端播放所述视频流。
[0063]
以上步骤以视频服务器为例,说明了本发明实施例是如何实现视频通讯的。可以看出,上述通讯过程中第一用户不需要实时采集和传输其本地图像数据,因此不需要第一用户在本地设置摄像头,降低了终端的设备成本,同时还减少了视频通讯过程中网络数据量,降低了网络传输压力。另外,由于第一用户仅上传其欲发送的文本信息/语音信息,因此对该第一用户的网络接入带宽要求较低,即使在其网络带宽条件较差时,也能够在第二用户处播放第一用户的图像画面,满足用户的视频通讯需求。
[0064]
另外,本发明实施例在上述步骤11之前,还可以按照以下方式,预先确定第一用户头像模型:
[0065]
步骤a,获取第一用户的用户头像和用户特征信息,所述用户特征信息至少包括第一用户的性别和年龄。
[0066]
例如,通过接收第一用户上传的头像,获得第一用户的用户头像,以及接收第一用户上传的用户资料,确定该第一用户的用户特征信息。
[0067]
步骤b,从预先建立的系统用户模型中,确定与第一用户的用户特征信息相对应的用户模型。
[0068]
本发明实施例中可以预先在系统中建立并维护多个系统用户模型,例如,针对不同性别、年龄、人种等特征,维护若干种典型的用户模型,用户模型通常是三维模型。通过第一用户的用户特征信息,从预先建模的多个系统用户模型中确定与之对应的模型,作为该用户模型。
[0069]
步骤c,从所述用户头像中提取第一用户的面部皮肤纹理,将所述面部皮肤纹理与所述第一用户对应的用户模型相绑定,得到所述第一用户头像模型。
[0070]
这里,在步骤b所确定的用户模型基础上,绑定从用户头像中获得的面部皮肤纹理,具体可以通过纹理映射技术来实现,即,将纹理排列放到用户头像的三维模型的表面,获得与第一用户真人相接近的第一用户头像模型。
[0071]
本发明实施例图1所示的上述方法,还可以应用于第二用户对应的第二终端。此时,上述步骤11中,获取第一用户向第二用户发送的语音信息,可 选的,可以是接收视频通讯服务器转发的所述第一用户向第二用户发送的语音信息。上述步骤14中,则可以直接播放所述视频流,以将所述视频流展示给所述第二用户。在由第二终端实现图1所示方法时,是由第二终端在本地生成并播放视频流,从而可以减轻服务器处的视频图像处理压力,同时还可以减少视频服务器需要传输给第二终端的视频数据量,降低网络的数据转发压力。
[0072]
基于以上所述的方法,本发明实施例还提供了一种即时通讯装置,用以实现上述方法。该装置可以应用于视频通讯服务器上或第二用户对应的第二终端上。请参照图2所示,该装置包括:
[0073]
第一获取单元21,设置为获取第一用户向第二用户发送的语音信息;
[0074]
生成单元22,设置为根据预先确定第一用户的第一用户头像模型,生成一图像画面;
[0075]
整合单元23,设置为将所述图像画面与所述语音信息进行整合,得到一包含有所述图像画面和语音信息的视频流;
[0076]
展示单元24,设置为将所述视频流显示给所述第二用户。
[0077]
这里,为了减少第一用户所需发送的数据量,所述第一获取单元21,是设置为接收第一用户向第二用户发送的语音信号,得到所述语音信息;或者,接收第一用户向第二用户发送的文本信息,通过文本语音转换,得到所述文本信息对应的语音信息。
[0078]
这里,作为另一种实现方式,如图3所示,所述第一获取单元21可以包括:
[0079]
检测单元,设置为检测第一用户的上行传输带宽;
[0080]
提示单元,设置为在所述上行传输带宽小于预设第一门限时,提示第一用户仅发送文本信息或语音信号;
[0081]
接收单元,设置为接收第一用户向第二用户发送的语音信息,或,接收第一用户向第二用户发送的文本信息,通过文本语音转换,得到所述文本信息对应的语音信息。
[0082]
为了实现用户模型的建立,本发明实施例的上述装置还可以包括:
[0083]
第二获取单元,设置为获取第一用户的用户头像和用户特征信息,所述 用户特征信息至少包括第一用户的性别和年龄;
[0084]
确定单元,设置为从预先建立的系统用户模型中,确定与第一用户的用户特征信息相对应的用户模型;
[0085]
绑定单元,设置为从所述用户头像中提取第一用户的面部皮肤纹理,将所述面部皮肤纹理与所述第一用户对应的用户模型相绑定,得到所述第一用户头像模型。
[0086]
这里,上述的生成单元22可以包括:
[0087]
解析单元,设置为解析所述语音信息,确定所述语音信息对应的面部表情;
[0088]
控制处理单元,设置为根据所确定的面部表情,控制所述第一用户头像模型生成与所述面部表情相对应的面部动作,得到所述图像画面。
[0089]
在该装置应用于视频服务器时,上述的展示单元24,是设置为将所述视频流发送至所述第二用户对应的终端,以通过该终端播放所述视频流。
[0090]
综上,本发明实施例提供的即时通讯方法及装置,只需要用户通过客户端软件传送文本/语音和头像等信息,服务端进行对头像进行保存和对头像面部纹理进行编辑,进而在用户聊天过程中,主动生成用户头像画面,从而解决了视频聊天对带宽要求高的问题,用户只用上传一次其头像,即可实现永久视频聊天的目的。并且,本发明实施例不需要用户终端处安装摄像头,降低了终端的设备成本。
[0091]
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
[0092]
本领域普通技术人员可以理解上述实施例的全部或部分步骤可以使用计算机程序流程来实现,所述计算机程序可以存储于一计算机可读存储介质中,所述计算机程序在相应的硬件平台上(如系统、设备、装置、器件等)执行,在执行时,包括方法实施例的步骤之一或其组合。
[0093]
可选地,上述实施例的全部或部分步骤也可以使用集成电路来实现,这些步骤可以被分别制作成一个个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。
[0094]
上述实施例中的各装置/功能模块/功能单元可以采用通用的计算装置来实现,它们可以集中在单个的计算装置上,也可以分布在多个计算装置所组成的网络上。
[0095]
上述实施例中的各装置/功能模块/功能单元以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。上述提到的计算机可读取存储介质可以是只读存储器,磁盘或光盘等。

工业实用性

[0096]
上述技术方案中,发送数据的第一用户不需要在本地设置摄像头,降低了终端的设备成本,同时还减少了视频通讯过程中网络数据量,降低了网络数据传输压力。此外,上述技术方案对该第一用户的网络接入带宽要求较低,即使在其网络带宽条件较差时,也能够在接收数据的第二用户处播放第一用户的图像画面,满足用户的视频通讯需求。

权利要求书

[权利要求 1]
一种即时通讯方法,包括:获取第一用户向第二用户发送的语音信息;根据预先确定第一用户的第一用户头像模型,生成一图像画面;将所述图像画面与所述语音信息进行整合,得到一包含有所述图像画面和语音信息的视频流;将所述视频流展示给所述第二用户。
[权利要求 2]
如权利要求1所述的即时通讯方法,其中,所述获取第一用户向第二用户发送的语音信息,包括:接收第一用户向第二用户发送的语音信息,或,接收第一用户向第二用户发送的文本信息,通过文本语音转换,得到所述文本信息对应的语音信息。
[权利要求 3]
如权利要求1所述的即时通讯方法,其中,所述获取第一用户向第二用户发送的语音信息,包括:检测第一用户的上行传输带宽;在所述上行传输带宽小于预设第一门限时,提示第一用户仅发送文本信息或语音信号;接收第一用户向第二用户发送的语音信息,或,接收第一用户向第二用户发送的文本信息,通过文本语音转换,得到所述文本信息对应的语音信息。
[权利要求 4]
如权利要求1所述的即时通讯方法,所述方法还包括:,在所述获取第一用户向第二用户发送的语音信息之前,获取第一用户的用户头像和用户特征信息,所述用户特征信息至少包括第一用户的性别和年龄;从预先建立的系统用户模型中,确定与第一用户的用户特征信息相对应的用户模型;从所述用户头像中提取第一用户的面部皮肤纹理,将所述面部皮肤纹理与所述第一用户对应的用户模型相绑定,得到所述第一用户头像模型。
[权利要求 5]
如权利要求4所述的即时通讯方法,其中,所述根据预先确定第一用户的第一用户头像模型,生成一图像画面,包 括:解析所述语音信息,确定所述语音信息对应的面部表情;根据所确定的面部表情,控制所述第一用户头像模型生成与所述面部表情相对应的面部动作,得到所述图像画面。
[权利要求 6]
如权利要求1所述的即时通讯方法,其中,所述将所述视频流展示给所述第二用户,包括:将所述视频流发送至所述第二用户对应的终端,以通过该终端播放所述视频流。
[权利要求 7]
一种即时通讯装置,包括:第一获取单元,设置为获取第一用户向第二用户发送的语音信息;生成单元,设置为根据预先确定第一用户的第一用户头像模型,生成一图像画面;整合单元,设置为将所述图像画面与所述语音信息进行整合,得到一包含有所述图像画面和语音信息的视频流;展示单元,设置为将所述视频流显示给所述第二用户。
[权利要求 8]
如权利要求7所述的即时通讯装置,其中,所述第一获取单元,是设置为接收第一用户向第二用户发送的语音信号,得到所述语音信息;或者,接收第一用户向第二用户发送的文本信息,通过文本语音转换,得到所述文本信息对应的语音信息。
[权利要求 9]
如权利要求7所述的即时通讯装置,其中,所述第一获取单元包括:检测单元,设置为检测第一用户的上行传输带宽;提示单元,设置为在所述上行传输带宽小于预设第一门限时,提示第一用户仅发送文本信息或语音信号;接收单元,设置为接收第一用户向第二用户发送的语音信息,或,接收第一用户向第二用户发送的文本信息,通过文本语音转换,得到所述文本信息对应的语音信息。
[权利要求 10]
如权利要求7所述的即时通讯装置,还包括:第二获取单元,设置为获取第一用户的用户头像和用户特征信息,所述 用户特征信息至少包括第一用户的性别和年龄;确定单元,设置为从预先建立的系统用户模型中,确定与第一用户的用户特征信息相对应的用户模型;绑定单元,设置为从所述用户头像中提取第一用户的面部皮肤纹理,将所述面部皮肤纹理与所述第一用户对应的用户模型相绑定,得到所述第一用户头像模型。
[权利要求 11]
如权利要求10所述的即时通讯装置,其中,所述生成单元包括:解析单元,设置为解析所述语音信息,确定所述语音信息对应的面部表情;控制处理单元,设置为根据所确定的面部表情,控制所述第一用户头像模型生成与所述面部表情相对应的面部动作,得到所述图像画面。
[权利要求 12]
如权利要求7所述的即时通讯装置,其中,所述展示单元,是设置为将所述视频流发送至所述第二用户对应的终端,以通过该终端播放所述视频流。
[权利要求 13]
一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1~6中任一项所述的方法。

附图

[ 图 0001]  

[ 图 0002]