Certains contenus de cette application ne sont pas disponibles pour le moment.
Si cette situation persiste, veuillez nous contacter àObservations et contact
1. (WO2017173776) PROCÉDÉ ET SYSTÈME D'ÉDITION AUDIO DANS UN ENVIRONNEMENT TRIDIMENSIONNEL
Document

说明书

发明名称 0001   0002   0003   0004   0005   0006   0007   0008   0009   0010   0011   0012   0013   0014   0015   0016   0017   0018   0019   0020   0021   0022   0023   0024   0025   0026   0027   0028   0029   0030   0031   0032   0033   0034   0035   0036   0037   0038   0039   0040   0041   0042   0043   0044   0045   0046   0047   0048   0049   0050   0051   0052   0053   0054   0055   0056   0057   0058   0059   0060   0061   0062   0063   0064   0065   0066   0067   0068   0069   0070   0071   0072   0073   0074   0075  

权利要求书

1   2   3   4   5   6   7   8   9   10   11   12   13   14   15   16   17   18  

附图

0001   0002  

说明书

发明名称 : 三维环境中的音频编辑方法与系统

技术领域

[0001]
本发明涉及总的涉及声音场景,更具体涉及用于三维环境中的音频编辑方法与系统。

背景技术

[0002]
传统音频混合技术使得用户能够以高精确程度操作音轨。数字音频工作站(DAW)如今广泛用于监控从多个声道接收到的音频信息。这些DAW系统使得用户能够操作变量,诸如质量、持续时间、音量平衡等。尽管有用,但传统DAW系统不能为声音的空间操作而提供直观声音混合选项。各种多声道声音格式试图启用空间操作。这些格式使得用户能够指定想要在特定时间广播特定声音的扬声器。但是,这些格式不能补偿三维(3D)环境中的用户移动。
[0003]
发明内容
[0004]
本发明旨在解决上述缺陷。因为是一种用于指定声音生成源的确切位置的系统,本发明能够在3D环境内创建理想的声音场景。也就是,本发明使得声音工程师能够通过环境移动以及操作者的位移和头部转动方向,同时指定环境内各种声音的源。这样,用户能够直观地在3D环境内操作声音。
[0005]
除了查明声源的位置,本发明还可以用作一个DAW,能够处理来自3D环境的各种对象的音轨。也就是说,本发明使得用户指定对象,诸如人物、动物、车辆、河流等作为声音生成源。用户随后能够对于3D环境的这些对象相关联的任何声音执行混音操作。
[0006]
根据本发明的第一方面,提供一种用于三维(3D)环境中的音频编辑方法,包括:处理加载的3D数据;处理加载的音频素材;使用处理的3D数据来构建3D环境;将音频素材的声音发生源定位于3D环境中的对象; 对3D环境中的对象产生的声音进行编辑。
[0007]
在根据本发明第一方面的音频编辑方法中,在构建的3D环境中构建虚拟控制台,使得用户通过操作虚拟控制台来控制3D环境中的对象与声音。
[0008]
在根据本发明第一方面的音频编辑方法中,用户在3D环境中移动的同时,指定3D环境中的对象用作声音发生源。
[0009]
在根据本发明第一方面的音频编辑方法中,对3D环境中的对象产生的声音进行编辑进一步包括:将3D环境中的对象产生的声音以音轨的形式呈现;以及将音轨混合并进行格式化以创建新的音频文件。
[0010]
在根据本发明第一方面的音频编辑方法中,当对象在3D环境中移动时,对于由于对象移动而导致的声音发生位置和传播的变化进行建模,并反映在音轨中。
[0011]
在根据本发明第一方面的音频编辑方法中,产生声音的对象由可视的标记指示,所述标记显示关于当前音轨的信息,使得用户能够追踪对象在3D环境中的运动。
[0012]
在根据本发明第一方面的音频编辑方法中,对声音传播情况进行建模,从而构建多用户环境,其中,环境声被投射到每个用户,作为该用户在3D环境中位置的函数。
[0013]
在根据本发明第一方面的音频编辑方法中,新的音频文件符合行业标准格式。
[0014]
在根据本发明第一方面的音频编辑方法中,将新的音频文件保存在数据库中或者上载到远程计算机、数据中心。
[0015]
根据本发明的第二方面,提供一种用于三维(3D)环境中的音频编辑 系统,包括:环境输入单元,用于处理加载的3D数据;音频输入单元,用于处理加载的音频素材;渲染单元,用于使用处理的3D数据来构建3D环境;环境操作单元,用于将音频素材的声音发生源定位于3D环境中的对象;以及数字音频工作站单元,用于对3D环境中的对象产生的声音进行编辑。
[0016]
在根据本发明第二方面的音频编辑系统中,所述渲染单元在构建的3D环境中构建虚拟控制台,使得用户通过操作虚拟控制台来控制所述环境操作单元和所述数字音频工作站单元的操作。
[0017]
在根据本发明第二方面的音频编辑系统中,所述环境操作单元进一步用于使得用户在3D环境中移动,并且在用户在3D环境中移动的同时,指定3D环境中的对象用作声音发生源。
[0018]
在根据本发明第二方面的音频编辑系统中,所述数字音频工作站单元进一步用于将3D环境中的对象产生的声音以音轨的形式呈现以及将音轨混合并进行格式化以创建新的音频文件。
[0019]
在根据本发明第二方面的音频编辑系统中,当对象在3D环境中移动时,所述数字音频工作站单元对于由于对象移动而导致的声音发生位置和传播的变化进行建模,并反映在音轨中。
[0020]
在根据本发明第二方面的音频编辑系统中,产生声音的对象由可视的标记指示,所述标记显示关于当前音轨的信息,使得用户能够追踪对象在3D环境中的运动。
[0021]
在根据本发明第二方面的音频编辑系统中,所述环境操作单元进一步对声音传播情况进行建模,从而构建多用户环境,其中,环境声被投射到每个用户,作为该用户在3D环境中位置的函数。
[0022]
在根据本发明第二方面的音频编辑系统中,新的音频文件符合行业标准格式。
[0023]
在根据本发明第二方面的音频编辑系统中,所述数字音频工作站单元进一步将新的音频文件保存在数据库中或者上载到远程计算机、数据中心。
[0024]
根据本发明的方法和系统,用户可以在虚拟化3D环境中操作声音场景。更具体地,用户能够识别3D环境中的对象为声音生成来源,以及操作由这些对象生成的声音。根据本发明,用户将能够创建沉浸式的音频轨道(音轨)用于虚拟化或3D环境。

附图说明

[0025]
下面参考附图结合实施例说明本发明。在附图中:
[0026]
图1是图示说明根据本发明的实施例的用于三维环境中的音频编辑系统的示意图。
[0027]
图2是图示说明根据本发明的实施例的用于三维环境中的音频编辑方法的流程图。

具体实施方式

[0028]
下面将结合附图来详细解释本发明的具体实施例。
[0029]
图1是图示说明根据本发明的实施例的用于三维(3D)环境中的音频编辑系统的示意图。
[0030]
如图1所示,根据本发明的实施例的用于3D环境中的音频编辑系统100包括:环境输入单元101、音频输入单元102、渲染单元103、环境操作单元104以及数字音频工作站(DAW)单元105。
[0031]
如图1所示,环境输入单元101接收加载的三维(3D)数据,并且对加载的3D数据进行处理。处理后的3D数据被传送到渲染单元103。这里所述的3D数据可以是虚拟现实(VR)数据,也可以是其他3D电影/游戏空间数据。
[0032]
音频输入单元102则接收加载的音频素材,并且对加载的音频素材进行处理,使之被应用于将要生成的3D环境中。
[0033]
原始音频素材可以包括:其他编辑器输出的声源(stem),网络上或者现场采集设备而来的音频流。比如一部战斗场景的电影,输入音频素材为直升机,飞机,子弹,战士,炮火,环境声等等声源。
[0034]
渲染单元103使用处理的3D数据来构建3D环境150。在图1所示的示意图中,该3D环境150具体是一个3D VR环境。本领域技术人员应该理解,本发明不限于在3D VR环境中实现。在图1所示的3D环境150中,优选地,渲染单元103还构建了虚拟控制台160,使得用户通过操作虚拟控制台160来控制下面所述的环境操作单元104和DAW单元105的操作。此外,在3D环境150中,还具有若干对象170-1、170-2、170-3、……、170-n(这里n为自然数)。
[0035]
在本发明的优选实施例中,渲染单元103在使用由环境输入单元101处理的数据来构建3D环境时,这些虚拟化的环境被传送到一个或多个VR头戴式耳机。当用户沉浸到3D VR环境内时,用户可以在3D环境中与虚拟控制台160进行交互。该虚拟控制台被用作为用户接口。输入到该虚拟用户接口中的命令被传递到环境操作单元104和DAW单元105。
[0036]
图1中所示的环境操作单元104可以将音频素材的若干声音发生源分别定位于3D环境150中的各个对象170-1、170-2、170-3、……、170-n,将3D环境中的对象170-1、170-2、170-3、……、170-n产生的声音以音轨的形式呈现。在一个优选实施例中,音轨可以呈现在虚拟控制台160上。
[0037]
在音频编辑系统100中,环境操作单元104可以使得用户在3D环境150中移动(导航)。DAW单元105则可以与所述环境操作单元104合作,在用户在3D环境150中移动的同时,指定3D环境中的对象170-1、170-2、170-3、……、170-n用作声音发生源,将3D环境中的对象170-1、170-2、170-3、……、170-n产生的声音以音轨的形式呈现,优选地,呈现在虚拟控制台160 上。换句话说,用户能够将3D环境中的声音指派给3D虚拟环境的任何部分(对象),诸如物体、人物、动物、开放空间、风景等。
[0038]
此外,在本发明的一个优选实施例中,当对象170-1、170-2、170-3、……、170-n中的一个或多个在3D环境中移动时,所述DAW单元105对于由于对象移动而导致的声音发生位置和传播的变化进行建模,并反映在音轨中。也就是说,本发明的系统对3D环境内的声音发生位置和传播的变化进行建模,使得对象相对于用户的位置改变时,理想地也会影响用户对环境内的声音场景的感受。附加于3D环境的每个音轨被指派了一个特定标记,其用来表示属性,诸如确切位置、发生时间、关联对象等。具有附加音轨的3D环境在DAW单元105中进行编辑,包括但不限于音频关联、排列、混音、编码等操作。
[0039]
在本发明的一个优选实施例中,产生声音的对象由可视的标记指示(图1中未示出),所述标记显示关于当前音轨的信息,使得用户能够追踪对象在3D环境150中的运动。
[0040]
此外,所述环境操作104可以进一步对声音传播情况进行建模,从而构建多用户环境,其中,环境声被投射到每个用户,作为该用户在3D环境150中位置的函数。这样,本发明的系统创建了理想的音频档案,用于单个VR环境内的多个用户。
[0041]
除了目前说明的单个声源,声音对象物体也有可能是整个声场环境作为一个声源。这种声源没有具体的方向性,而是通过类似Ambisonics的音频信号或者5.1,7.1等等传动的多声道音频信号来表示。这类声音信号不是此编辑器针对的主要对象,但是在3D混音中可能出现作为此音频编辑器的另一种声源。由于声源的特性,编辑器将用区别于点声源的图形来表示。一般情况,这种声场声源带有方向性,但是没有自己的空间坐标。
[0042]
换句话说,3D环境中的一部分对象可以被称为点声源,就是每个都有自己的方向感;另外是声场,如FOA(first order ambisonics)、HOA(higher order ambisonics)、5.1或7.1声道等等格式,代表整个场,也可以作为3D环境中的对象,但是代表一个背景层,而没有自己的固定空间位置。本发明所述的“对象”也包括上述这样的声源。
[0043]
图1中所示的DAW单元105可以将音轨混合并进行格式化以创建新的音频文件。音频文件可以包含由DAW单元105所生成的处理的音频信息(音轨等)。优选地,新的音频文件可以符合行业标准格式,例如本领域技术人员公知的主流音频文件格式。此外,所述DAW单元105可以进一步将新的音频文件保存在数据库中或者上载到远程计算机、数据中心。由此,用户有可能能够将保存在数据库、远程计算机、数据中心等中的音频文件合并到正在VR环境内构建的声音场景中。也就是说,用户能够加载保存的文件并且使用DAW单元105来操作文件。
[0044]
对上述两种对象进行控制,合在一起之后可以输出的音频文件的格式,可能是以下几种:
[0045]
a.基于声道的(channel based):5.1,7.1,11.1,22.2,Auro 3D等等
[0046]
b.基于对象的(object based):杜比ATMOS(声道+对象)
[0047]
c.基于场景的(scene based):HOA.同时HOA也可以带几轨对象,如解说,旁白,每轨为单声道,分别压缩,和HOA的scene based码流一起传输。
[0048]
举例来说,输出音频文件可以是Ambisonics音轨(1阶为4轨,n阶为(n+1) 2个音轨),主要用于VR;或者传统的5.1、7.1、11.1、22.2等等声道格式,或者象MPEG-H和杜比ATMOS的声轨加上各个独立的声源。
[0049]
此外,新的音频文件中需要包含附加的信息,例如元数据(metadata)或边信息(side information),特别是在ATMOS和基于对象的音频格式里面。这种元数据一般是在音频数据编码的每一帧里面加入,时间上和音频信号本身同步。
[0050]
图2是图示说明根据本发明的实施例的用于三维(3D)环境中的音频 编辑方法的流程图。
[0051]
如图2所示,根据本发明的实施例的用于3D环境中的音频编辑方法的流程图S200开始于步骤S201。在此步骤,处理加载的3D数据。而在步骤S203,可以是在步骤S201之前或之后或同时,处理加载的音频素材。音频素材是对音频信号的一个抽象,实时的音频流以及信号等等形式也可在这里出现。
[0052]
在步骤S205,使用处理的3D数据来构建3D环境。根据本发明的一个优选实施例,可以在构建的3D环境中构建虚拟控制台,使得用户通过操作虚拟控制台来控制虚拟现实环境中的对象与声音。
[0053]
在本发明的优选实施例中,在使用处理的3D数据来构建3D环境时,这些虚拟化的3D环境被传送到一个或多个VR头戴式耳机。当用户沉浸到该环境内时,用户可以在3D环境中与虚拟控制台进行交互。
[0054]
在步骤S207,将声音发生源定位于3D环境中的对象。根据本发明的一个优选实施例,可以在用户在3D环境中移动的同时,指定3D环境中的对象用作声音发生源。
[0055]
在步骤S209,对3D环境中的对象产生的声音进行编辑。优选地,将3D环境中的对象产生的声音以音轨的形式呈现。根据本发明的一个优选实施例,当对象在3D环境中移动时,对于由于对象移动而导致的声音发生位置和传播的变化进行建模,并反映在音轨中。
[0056]
根据本发明的一个优选实施例,产生声音的对象由可视的标记指示,所述标记显示关于当前音轨的信息,使得用户能够追踪对象在3D环境中的运动。
[0057]
在本发明的一个优选实施例中,可以对声音传播情况进行建模,从而构建多用户环境,其中,环境声被投射到每个用户,作为该用户在3D环境中 位置的函数。
[0058]
在步骤S209的操作中,可以将音轨混合并进行格式化以创建新的音频文件。优选地,新的音频文件可以符合行业标准格式。可以将新的音频文件保存在数据库中或者上载到远程计算机、数据中心。在诸如直播的应用场景中,这种新创建的音频文件可以以实时音频流或者音频信号的方式出现,不一定是写入某种介质的具体文件。
[0059]
之后,方法流程图S200可以结束。
[0060]
本发明术语“单元”这里还可以用来指基于功能而分组的程序集。本发明的目标在于提供数字音频工作站,其使得声音工程师能够在虚拟环境内操作声音的位置、传播、强度。为此,本发明可以是用于处理预先构建的虚拟现实环境的软件。也就是说,本发明读取各种VR格式并且使得用户能够通过连接的VR头戴式耳机变得浸入到VR环境中。
[0061]
因此,根据本发明,还提供了一种计算机可读记录介质。在该计算机可读记录介质上存储指令。这些指令当由用于三维(3D)环境中的音频编辑的一个或多个处理器执行时,使得所述一个或多个处理器执行以下操作:
[0062]
处理加载的3D数据;
[0063]
处理加载的音频素材;
[0064]
使用处理的3D数据来构建3D环境;
[0065]
将音频素材的声音发生源定位于3D环境中的对象;
[0066]
对3D环境中的对象产生的声音进行编辑。
[0067]
此外,以上的术语“单元”也可以被称为“引擎”。因此,可以参见以下的描述。
[0068]
本发明的优选实施例是一种用于在虚拟化三维环境内操作音频信息的系统。本发明包括环境输入引擎、音频输入引擎、渲染引擎、环境操作引擎、数字音频工作站(DAW)引擎、编码引擎、用户接口(UI)引擎和数据库。 术语“引擎”这里用来指基于功能而分组的程序集。本发明的目标在于提供数字音频工作站,其使得声音工程师能够在虚拟环境内操作声音的位置、传播、强度。为此,本发明是用于处理预先构建的虚拟现实环境的软件。也就是说,本发明读取各种VR格式并且使得用户能够通过连接的VR头戴式耳机变得沉浸到3D环境中。
[0069]
在本发明的优选方法中,本发明被用作一种程序,用户将VR环境、电影等加载到该程序中。为此,环境输入引擎处理加载到系统中的3D或VR数据。在本发明的优选实施例中,环境输入引擎的任务是读取各种格式的3D环境。用户将音频文件加载到音频输入引擎中。音频输入引擎处理所有加载到本发明的系统中的音频文件。加载到环境输入引擎中的3D环境被处理,随后传递到渲染引擎。
[0070]
在本发明的优选实施例中,渲染引擎使用由环境输入引擎处理的数据来构建3D环境。这些虚拟化的环境被传送到一个或多个VR头戴式耳机。本发明的目标在于提供生成3D控制面板的渲染引擎,当用户沉浸到VR环境内时,用户可以与3D控制面板进行交互。也就是,除了虚拟环境之外,渲染引擎生成了虚拟控制台,该虚拟控制台被用作为用户接口。输入到虚拟接口中的命令被传递到环境操作引擎和DAW引擎。
[0071]
在本发明的优选实施例中,环境操作引擎使得用户能够在VR环境内导航。本发明的目标在于提供环境操作引擎,该环境操作引擎与DAW引擎合作,使得用户能够将声音生成源定位在虚拟化环境中的任意位置处。也就是说,当用户在3D环境内移动时,他能够指定环境中的对象来用作声音生成源。用户能够将对象指定和声音档案指派给虚拟环境的任何部分,诸如物体、人物、动物、开放空间、风景等。
[0072]
在本发明的优选实施例中,DAW引擎用作混音和操作系统,能够处理来自VR环境内的多个对象的音轨。除了混合与多个对象相关联的音轨之外,DAW引擎和环境操作引擎对于当对象在3D或VR环境内移动时导致的声音传播中的变化进行建模。也就是说,本发明的系统对3D环境内的声音传播 进行建模,使得对象相对于用户的位置改变,理想地会影响用户对环境内的声音场景的感受。附加于VR环境的每个音轨被指派了一个特定标记,其用来表示属性,诸如确切位置、发生时间、关联对象等。具有附加音轨的3D环境随后被传递到编码引擎。
[0073]
在本发明的补充实施例中,被指定作为声音生成源的对象是由可视的标记指示的。这些可视的标记广播关于当前音轨的信息,使得用户能够追踪对象在VR环境中的运动。在附加实施例中,本发明的系统能够对声音传播档案进行建模,用于包含多个用户的环境。在这个实施例中,环境声被投射到每个用户,作为其在3D环境内位置的函数。这样,本发明的系统创建了理想的音频档案,用于单个3D环境内的多个用户。
[0074]
在本发明的优选实施例中,编码引擎对于与处理的3D环境相关联的音轨进行格式化。本发明的目标在于提供编码引擎来构建音频文件,音频文件包含由DAW引擎和环境操作引擎所生成的处理的音频信息。编码引擎所构建的音频文件被编码成工业标准格式。在优选实施例中,UI引擎的任务是解释用户输入。为此,本发明的系统与各种形式的用户输入系统交互,使得用户能够操作由渲染引擎生成的虚拟控制台。由本发明系统生成的音频文件保存在数据库中。此外,用户能够将保存在数据库中的音频文件合并到正在3D环境内构建的音频档案中。也就是说,用户能够加载保存的文件并且使用DAW引擎来操作文件。在补充实施例中,用户能够将音频文件上载到远程计算机、数据中心等上。
[0075]
上面已经描述了本发明的各种实施例和实施情形。但是,本发明的精神和范围不限于此。本领域技术人员将能够根据本发明的教导而做出更多的应用,而这些应用都在本发明的范围之内。

权利要求书

[权利要求 1]
一种用于三维(3D)环境中的音频编辑方法,包括: 处理加载的3D数据; 处理加载的音频素材; 使用处理的3D数据来构建3D环境; 将音频素材的声音发生源定位于3D环境中的对象;以及 对3D环境中的对象产生的声音进行编辑。
[权利要求 2]
根据权利要求1所述的音频编辑方法,其中,使用处理的3D数据来构建3D环境进一步包括: 在构建的3D环境中构建虚拟控制台,使得用户通过操作虚拟控制台来控制3D环境中的对象与声音。
[权利要求 3]
根据权利要求1所述的音频编辑方法,其中,将音频素材的声音发生源定位于3D环境中的对象进一步包括: 用户在3D环境中移动的同时,指定3D环境中的对象用作声音发生源。
[权利要求 4]
根据权利要求1所述的音频编辑方法,其中,对3D环境中的对象产生的声音进行编辑进一步包括: 将3D环境中的对象产生的声音以音轨的形式呈现;以及 将音轨混合并进行格式化以创建新的音频文件。
[权利要求 5]
根据权利要求4所述的音频编辑方法,其中,将3D环境中的对象产生的声音以音轨的形式呈现进一步包括: 当对象在3D环境中移动时,对于由于对象移动而导致的声音发生位置和传播的变化进行建模,并反映在音轨中。
[权利要求 6]
根据权利要求4所述的音频编辑方法,其中,产生声音的对象由可视的标记指示,所述标记显示关于当前音轨的信息,使得用户能够追踪对象在3D环境中的运动。
[权利要求 7]
根据权利要求1所述的音频编辑方法,进一步包括: 对声音传播情况进行建模,从而构建多用户环境,其中,环境声被投射到每个用户,作为该用户在3D环境中位置的函数。
[权利要求 8]
根据权利要求4所述的音频编辑方法,其中,新的音频文件符合行业标准格式。
[权利要求 9]
根据权利要求4所述的音频编辑方法,进一步包括: 将新的音频文件保存在数据库中或者上载到远程计算机、数据中心。
[权利要求 10]
一种用于三维(3D)环境中的音频编辑系统,包括: 环境输入单元,用于处理加载的3D数据; 音频输入单元,用于处理加载的音频素材; 渲染单元,用于使用处理的3D数据来构建3D环境; 环境操作单元,用于将音频素材的声音发生源定位于3D环境中的对象;以及 数字音频工作站单元,用于对3D环境中的对象产生的声音进行编辑。
[权利要求 11]
根据权利要求10所述的音频编辑系统,其中,所述渲染单元在构建的3D环境中构建虚拟控制台,使得用户通过操作虚拟控制台来控制所述环境操作单元和所述数字音频工作站单元的操作。
[权利要求 12]
根据权利要求10所述的音频编辑系统,其中,所述环境操作单元进一步用于使得用户在3D环境中移动,并且在用户在3D环境中移动的同时,指定3D环境中的对象用作声音发生源。
[权利要求 13]
根据权利要求10所述的音频编辑系统,其中,所述数字音频工作站单元进一步用于将3D环境中的对象产生的声音以音轨的形式呈现以及将音轨混合并进行格式化以创建新的音频文件。
[权利要求 14]
根据权利要求13所述的音频编辑系统,其中,当对象在3D环境中移动时,所述数字音频工作站单元对于由于对象移动而导致的声音发生位置和传播的变化进行建模,并反映在音轨中。
[权利要求 15]
根据权利要求13所述的音频编辑系统,其中,产生声音的对象由可视的标记指示,所述标记显示关于当前音轨的信息,使得用户能够追踪对象在3D环境中的运动。
[权利要求 16]
根据权利要求10所述的音频编辑系统,其中,所述环境操作单元进一步对声音传播情况进行建模,从而构建多用户环境,其中,环境声被投射到每个用户,作为该用户在3D环境中位置的函数。
[权利要求 17]
根据权利要求13所述的音频编辑系统,其中,新的音频文件符合行业标准格式。
[权利要求 18]
根据权利要求13所述的音频编辑系统,其中,所述数字音频工作站单元进一步将新的音频文件保存在数据库中或者上载到远程计算机、数据中心。

附图

[ 图 0001]  
[ 图 0002]