Traitement en cours

Veuillez attendre...

Paramétrages

Paramétrages

Aller à Demande

1. JP2021508193 - キャプチャされた空間オーディオコンテンツの提示用の装置および関連する方法

Document

Description

Title of Invention キャプチャされた空間オーディオコンテンツの提示用の装置および関連する方法 EP 17209901.2 20171222 EP2018084321 20181211 WO2019121150 20190627 20200708

Technical Field

0001   0002   0003   0004   0005   0006   0007   0008   0009   0010   0011   0012   0013   0014   0015   0016   0017   0018   0019   0020   0021   0022   0023   0024  

Brief Description of Drawings

0025   0026   0027   0028   0029   0030   0031   0032   0033   0034   0035   0036   0037   0038   0039   0040   0041   0042   0043   0044   0045   0046   0047   0048   0049   0050   0051   0052   0053   0054   0055   0056   0057   0058   0059   0060   0061   0062   0063   0064   0065   0066   0067   0068   0069   0070   0071   0072   0073   0074   0075   0076   0077   0078   0079   0080   0081   0082   0083   0084   0085   0086   0087   0088   0089   0090   0091   0092   0093   0094   0095   0096   0097   0098   0099   0100   0101   0102   0103  

Claims

1   2   3   4   5   6   7   8   9   10   11   12   13   14   15    

Drawings

1   2   3   4   5   6   7   8    

Description

キャプチャされた空間オーディオコンテンツの提示用の装置および関連する方法

EP 17209901.2 20171222 EP2018084321 20181211 WO2019121150 20190627 20200708

Technical Field

[0001]
本開示は、空間オーディオコンテンツの提示の分野に関し、特に、空間オーディオコンテンツ、関連する装置、方法、およびコンピュータプログラムの部分に着目した空間オーディオコンテンツの提示に関する。

背景

[0002]
空間オーディオコンテンツの提示によって、ユーザには豊かな体験がもたらされる。しかし、この体験は、当該コンテンツの提示を圧倒的なもの、または理解しがたいものにしてしまう場合がある。これにより、効果的に空間オーディオコンテンツの提示を行うことが困難な場合がある。
[0003]
本明細書における以前に公開された文書または任意の背景の列挙または説明は、必ずしも、その文書または背景が最新技術の一部であること、または一般知識であることの自認であると理解されてはならない。本開示の1つ以上の態様/例は、背景の課題の1つ以上に対処するものであってもよく、そうでなくてもよい。

摘要

[0004]
第1の例示的態様では装置が提供される。この装置は、
(i)音声を含むシーンのキャプチャされた空間オーディオコンテンツに基づき、当該音声はこれがキャプチャされた前記シーンの方向を少なくとも示す情報と対応付けられ、さらに
(ii)前記シーンの対応するキャプチャされた視覚的画像群に、ユーザに対する提示用にフォーカスが当てられた、前記シーンの第1の部分を少なくとも示す情報を含むビジュアルフォーカス情報に基づき、
前記キャプチャされた視覚的画像群の提示を伴うように、前記キャプチャされた空間オーディオコンテンツの提示を行うように構成される手段を備える。このキャプチャされた空間オーディオコンテンツは、前記ユーザに対して、当該キャプチャされた空間オーディオコンテンツに示された方向から発せられる音声の知覚を提供するように構成された空間オーディオとして提示され、前記空間オーディオコンテンツは、前記第1の部分とは異なる前記シーンの第2の部分からキャプチャされた音声に選択的に適用される空間オーディオフォーカスを有して提示用に提供され、前記空間オーディオフォーカスは、前記シーンの他の場所からの音声に比べて、前記第2の部分に対応する方向を有する音声の可聴度を増加させる音声変更効果を含む。
[0005]
1つ以上の例では、前記第2の部分は、前記キャプチャされた視覚的画像群および前記キャプチャされた空間オーディオコンテンツが提示されることが意図されるユーザに特有のオーディオフォーカス情報に基づいて前記装置によって選択され、前記装置は、
a)前記ユーザからの、前記シーンの少なくとも1つの部分に対するユーザの選択と、
b1)前記ユーザが好む音声または音源の1つ以上を示すユーザ設定のプロファイル設定と、
b2)前記ユーザに対応付けられ、前記キャプチャされた空間オーディオコンテンツに聴覚的に存在し、またはキャプチャされたビジュアルコンテンツに視覚的に現れ、さらに、前記ユーザに事前に提示され、前記ユーザによって選択されたキャプチャされた別の視聴覚コンテンツにある共通の特徴に対する、前記ユーザによる1つ以上のユーザの選択を示す履歴データと、
c)前記ユーザに対応付けられ、前記キャプチャされた空間オーディオコンテンツに聴覚的に存在し、または前記キャプチャされたビジュアルコンテンツに視覚的に現れ、さらに、前記シーンのある決定された場所に対応する場所にいる前記ユーザに事前に提示されたキャプチャされた別の視聴覚コンテンツにある共通の特徴を示す履歴場所データと、
d)前記キャプチャされた空間オーディオコンテンツと、最近の時間または対応する時刻または時期を含む関連する時間にキャプチャされた、別の視聴覚コンテンツに共通の音声を示す履歴データを含む時間に特有のデータと、
の内の少なくとも1つに基づいて前記オーディオフォーカス情報を決定するように構成される手段を備える。
[0006]
1つ以上の例では、前記装置は、前記キャプチャされた空間オーディオコンテンツの提示において、前記キャプチャされた空間オーディオコンテンツを、キャプチャされた時間および場所の一方または両方に基づいて、当該キャプチャされた空間オーディオコンテンツに関連する別のキャプチャされた空間オーディオコンテンツと混成するように構成される手段を有し、前記空間オーディオフォーカスは、混成された前記別のキャプチャされた空間オーディオコンテンツの第2の部分に適用される。
[0007]
1つ以上の例では、前記シーンの前記第1の部分は、
a)現在提示されている前記キャプチャされたビジュアルコンテンツの空間的広がり全体と、
b)現在提示されている前記キャプチャされたビジュアルコンテンツの空間的広がり全体の小区分と、
c)現在提示されており、前記ユーザによって選択された、前記キャプチャされたビジュアルコンテンツの一部と、
の内の少なくとも1つを含む。
[0008]
1つ以上の例では、前記キャプチャされたビジュアルコンテンツおよびキャプチャされた空間オーディオコンテンツは、ライブで提示され、選択的に適用された前記空間オーディオフォーカスを有する提示用の前記キャプチャされた空間オーディオコンテンツの提示は、前記キャプチャされた空間オーディオコンテンツをキャプチャするコンテンツキャプチャデバイスに対するフィードバックシグナリングの送信を行い、前記フィードバックシグナリングは、前記コンテンツキャプチャデバイスによる前記音声変更効果の適用を行うように構成される。
[0009]
1つ以上の例では、前記キャプチャされたビジュアルコンテンツおよびキャプチャされた空間オーディオコンテンツは事前に記録されたキャプチャされたコンテンツであり、前記キャプチャされたビジュアルコンテンツは、前記ビジュアルフォーカス情報に応じて、視覚的画像群の被写界深度の位置および深さの一方または両方に関して、光学的フォーカスを変更できるような光学的に再フォーカス可能なフォーマットでキャプチャされる。
[0010]
1つ以上の例では、前記装置は、前記シーンの前記キャプチャされた視覚的画像群に基づいて、前記ユーザに対する提示用にフォーカスが当てられた前記ビジュアルフォーカス情報に定義された前記シーンの前記第1の部分を有する前記キャプチャされた視覚的画像群の提示を行うように構成される。
[0011]
1つ以上の例では、前記シーンの前記第1の部分は、
i)提示用に提供された視界内にある当該シーンの空間的小区分を含む前記第1の部分と、
ii)光学的フォーカスが小さい表示用に提供された視野における残りの部分に比べて光学的フォーカスが当てられた、提示用に提供された前記視野の空間的小区分を含む前記第1の部分と、
の内の少なくとも1つについて、提示用にフォーカスが当てられる。
[0012]
1つ以上の例では、前記シーンの前記キャプチャされた視覚的画像群は、
a)当該シーンの静止画像と、
b)当該シーンのビデオ画像群と、
c)任意の時点で前記ユーザに提示可能な空間的広がりよりも大きな空間的広がりを有する、当該シーンの仮想現実画像群と、
の1つを含む。
[0013]
1つ以上の例では、前記装置は、
(i)ユーザへの提示用に提供された前記キャプチャされた視覚的画像群にフォーカスが当てられるべき、前記シーンの少なくとも第3の部分を定義するための、前記ビジュアルフォーカス情報における変更に基づき、さらに(ii)前記キャプチャされた視覚的画像群の提示を伴うために、前記キャプチャされた空間オーディオコンテンツの進行中の提示に基づき、
前記第2の部分とは異なる、前記シーンの第4の部分からキャプチャされた音声に選択的に適用された空間オーディオフォーカスにおける変更を行うように構成される手段を有する。
[0014]
1つ以上の例では、前記装置は、
(i)前記シーン内の音源の変化および前記シーン内の音源の位置の変化の一方または両方を示す前記キャプチャされた空間オーディオコンテンツの分析に基づき、さらに(ii)前記キャプチャされた視覚的画像群の提示を伴うために、前記キャプチャされた空間オーディオコンテンツの進行中の提示に基づき、
前記第1の部分および前記第2の部分とは異なる、前記シーンの第4の部分からキャプチャされた音声に対して選択的に適用された前記空間オーディオフォーカスにおける変更を行うように構成される手段を有する。
[0015]
1つ以上の例では、前記キャプチャされたビジュアルコンテンツおよびキャプチャされた空間オーディオコンテンツはライブで提示され、前記装置は、キャプチャされた時点の前記キャプチャされた空間オーディオコンテンツのコンピュータにより実施された分析に基づいて、前記シーンの1つ以上の候補となる第2の部分を決定するように構成される手段を備え、前記装置は、前記空間オーディオフォーカスの適用のための前記候補となる第2の部分の1つ以上を選択するように構成される。
[0016]
1つ以上の例では、前記キャプチャされたビジュアルコンテンツおよび前記キャプチャされた空間オーディオコンテンツは事前に記録されたコンテンツであり、前記装置は、少なくとも部分的に、提示用の前記キャプチャされた空間オーディオコンテンツの提供に先行する、前記キャプチャされた空間オーディオコンテンツのコンピュータにより実施された分析に基づいて、前記シーンの1つ以上の候補となる第2の部分を決定するように構成される手段を備え、前記装置は、前記空間オーディオフォーカスの適用のための前記候補となる第2の部分の1つ以上を選択するように構成される。
[0017]
1つ以上の例では、空間オーディオフォーカスが設けられた音声は、ユーザが選択可能なリンクと共にさらに提示され、前記装置は、前記リンクのユーザ選択によって、キャプチャされた別の視覚的画像群と、対応するキャプチャされた視覚的画像群の提示を行うように構成される手段を有し、当該キャプチャされた別の視覚的画像群および対応するキャプチャされた視覚的画像群は、(i)前記空間オーディオフォーカスが設けられた音声と比較した聴覚的分析に基づいて、聴覚的に類似していると判定されたキャプチャされた空間オーディオコンテンツと、(ii)前記空間オーディオフォーカスが設けられた音声の決定された音源に関連する音源の画像群を含むと判断されたキャプチャされた視覚的画像群の内の1つ以上を有する。
[0018]
1つ以上の例では、前記オーディオフォーカス情報は、前記ユーザに提示された空間オーディオコンテンツの複数の事例に基づくニューラルネットワークを使用して決定される。
[0019]
第2の例示的態様では方法が提供される。この方法は、
(i)音声を含むシーンのキャプチャされた空間オーディオコンテンツに基づき、当該音声はこれがキャプチャされた前記シーンの方向を少なくとも示す情報と対応付けられ、さらに
(ii)前記シーンの対応するキャプチャされた視覚的画像群に、ユーザに対する提示用にフォーカスが当てられた、前記シーンの第1の部分を少なくとも示す情報を含むビジュアルフォーカス情報に基づき、
前記キャプチャされた視覚的画像群の提示を伴うように、前記キャプチャされた空間オーディオコンテンツの提示を行うことを含む。このキャプチャされた空間オーディオコンテンツは、前記ユーザに対して、当該キャプチャされた空間オーディオコンテンツに示された方向から発せられる音声の知覚を提供するように構成された空間オーディオとして提示され、前記空間オーディオコンテンツは、前記第1の部分とは異なる前記シーンの第2の部分からキャプチャされた音声に選択的に適用される空間オーディオフォーカスを有して提示用に提供され、前記空間オーディオフォーカスは、前記シーンの他の場所からの音声に比べて、前記第2の部分に対応する方向を有する音声の可聴度を増加させる音声変更効果を含む。
[0020]
第3の例示的態様では、保存されたコンピュータプログラムコードを備えるコンピュータ可読媒体が提供される。前記コンピュータ可読媒体およびコンピュータプログラムコードは、少なくとも1つのプロセッサ上で実行されると、
(i)音声を含むシーンのキャプチャされた空間オーディオコンテンツに基づき、当該音声はこれがキャプチャされた前記シーンの方向を少なくとも示す情報と対応付けられ、さらに
(ii)前記シーンの対応するキャプチャされた視覚的画像群に、ユーザに対する提示用にフォーカスが当てられた、前記シーンの第1の部分を少なくとも示す情報を含むビジュアルフォーカス情報に基づき、
前記キャプチャされた視覚的画像群の提示を伴うように、前記キャプチャされた空間オーディオコンテンツの提示を行うことを含む方法を実施するように構成される。
このキャプチャされた空間オーディオコンテンツは、前記ユーザに対して、当該キャプチャされた空間オーディオコンテンツに示された方向から発せられる音声の知覚を提供するように構成された空間オーディオとして提示され、前記空間オーディオコンテンツは、前記第1の部分とは異なる前記シーンの第2の部分からキャプチャされた音声に選択的に適用される空間オーディオフォーカスを有して提示用に提供され、前記空間オーディオフォーカスは、前記シーンの他の場所からの音声に比べて、前記第2の部分に対応する方向を有する音声の可聴度を増加させる音声変更効果を含む。
[0021]
第4の例示的態様では装置が提供される。この装置は、
少なくとも1つのプロセッサと、
コンピュータプログラムコードを含む少なくとも1つのメモリと、を備え、
前記少なくとも1つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサによって、前記装置に少なくとも、
(i)音声を含むシーンのキャプチャされた空間オーディオコンテンツに基づき、当該音声はこれがキャプチャされた前記シーンの方向を少なくとも示す情報と対応付けられ、さらに
(ii)前記シーンの対応するキャプチャされた視覚的画像群に、ユーザに対する提示用にフォーカスが当てられた、前記シーンの第1の部分を少なくとも示す情報を含むビジュアルフォーカス情報に基づき、
前記キャプチャされた視覚的画像群の提示を伴うように、前記キャプチャされた空間オーディオコンテンツの提示を行わせるように構成される。このキャプチャされた空間オーディオコンテンツは、前記ユーザに対して、当該キャプチャされた空間オーディオコンテンツに示された方向から発せられる音声の知覚を提供するように構成された空間オーディオとして提示され、前記空間オーディオコンテンツは、前記第1の部分とは異なる前記シーンの第2の部分からキャプチャされた音声に選択的に適用される空間オーディオフォーカスを有して提示用に提供され、前記空間オーディオフォーカスは、前記シーンの他の場所からの音声に比べて、前記第2の部分に対応する方向を有する音声の可聴度を増加させる音声変更効果を含む。
[0022]
本開示は、1つ以上の対応する態様、例、または特徴を、単独または様々な組合せで含み、これは、その組合せまたは単独で特定的に記載(特許請求を含む)されたか否かにかかわらない。記載される機能の内の1つ以上を実行する対応する手段および対応する機能ユニット(例えば機能イネーブラ、AR/VRグラフィックレンダラ、ディスプレイデバイス)も本開示の範囲内にある。
[0023]
開示された方法の1つ以上を実装する対応するコンピュータプログラムも本開示の範囲内にあり、記載された例の1つ以上に含まれる。
[0024]
上記の摘要は、単なる例示であり非限定的なものとして意図されている。

Brief Description of Drawings

[0025]
以下、単なる例として、添付の図面を参照しながら説明を行う。
[fig. 1] コンテンツキャプチャデバイスによってキャプチャされたシーンの、キャプチャされた空間オーディオコンテンツおよび視覚的画像群の提示を行うための例示的装置を示す。
[fig. 2] 同装置の例示的ブロック図である。
[fig. 3] 同装置の例示的動作フローを示すフローチャートである。
[fig. 4] 同装置の例示的動作フローをさらに示すフローチャートである。
[fig. 5] 同装置の例示的動作フローをさらに示すフローチャートである。
[fig. 6] 使用中の同装置の一例を示すフローチャートである。
[fig. 7] 例示的方法を示すフローチャートである。
[fig. 8] コンピュータ可読媒体を示す。

例示的態様の説明

[0026]
図1を参照すると、システム100、特に装置101が、キャプチャされた空間オーディオコンテンツの提示を行う。1つ以上の例では、装置101は、視聴覚コンテンツの提示を、キャプチャされた視覚的画像群およびキャプチャされた空間オーディオコンテンツの形で行う。空間オーディオコンテンツのキャプチャは、あるシーンにおける複数の音源の空間的配置をキャプチャし、空間オーディオコンテンツの再生における当該シーンの再現を聴覚的に行うような形で行われる。キャプチャされた空間オーディオコンテンツは、ユーザが自身に提示された音声を、当該シーンにおける空間的配置に対応する特定の方向および/または場所から発せられると知覚するように提示されてもよい。これにより、キャプチャされた空間オーディオコンテンツは、仮想音声シーンを提供するとみなすことができ、これは、キャプチャデバイスの周囲に配置された音源で実在シーンを複製してもよいし、あるいはコンピュータが生成したシーンを含んでもよい。
[0027]
前述のように、空間オーディオは、1つ以上の音源がそれぞれ特定の場所にあるかのように、特定の場所から発せられると知覚されるようにユーザに対して提示される音声を含む。空間オーディオは、視覚的画像群を伴わず提示されてもよいし、静止画または動画の視覚的画像群(例えば、ピクチャまたはビデオ)を伴って提供されてもよい。仮想現実コンテンツには、VRコンテンツの画像群とリンクしていてもよい、仮想現実(VR)空間内の1つ以上の点から発せられると知覚されるような空間オーディオが設けられてもよい。拡張現実または複合現実コンテンツには、ユーザにとって可視の実在物体から、および/またはユーザの視界に重ねられた拡張現実グラフィックから発せられると知覚されるような空間オーディオが設けられてもよい。
[0028]
「仮想音声シーン」を生成するための空間オーディオの空間的位置決めは、3D音声効果(例えば、頭部伝達関数を利用して、ユーザへの提示用に音声を配置できる空間オーディオ空間を作成すること)によって提示されてもよい。空間オーディオは、頭部伝達関数フィルタリング(Head Related Transfer Function Filtering:HRTF)技術を用いてヘッドフォンによって提示されてもよく、スピーカについては、ベクトルベース振幅パンニング(Vector Base Amplitude Panning:VBAP)技術を用いて提示され、知覚される音声コンテンツの音源の位置を決めてもよい。他の実施形態では、アンビソニック音声提示を使用して空間オーディオを提示してもよい。空間オーディオは、ユーザの両耳のそれぞれに対する聴覚提示における音量差、タイミング差、高低差の内の1つ以上によって、当該音声の発生源が空間内の特定の場所にあるという知覚をもたらしてもよい。当該音声の発生源までの知覚された距離は、反射音量の制御、周波数コンテンツおよびゲインの制御によってレンダリングされ、この空間オーディオの知覚された音源からの近さまたは距離を示してもよい。
[0029]
コンテンツキャプチャデバイス102は、シーン104からの全方向音声コンテンツに加え、少なくともシーン104の空間的部分103の視覚的画像群をキャプチャするために使用されてもよい。コンテンツキャプチャデバイス102は、空間オーディオキャプチャ能力を有する、またはこれに対応付けられた静止画像カメラを備えてもよい。コンテンツキャプチャデバイス102は、空間オーディオキャプチャ能力を有する、またはこれに対応付けられたビデオカメラを備えてもよい。コンテンツキャプチャデバイス102は、動画または静止画像をキャプチャし、空間オーディオキャプチャ能力を有する、またはこれに対応付けられたカメラ、またはカメラを備えたスマートフォンを備えてもよい。1つ以上の例では、コンテンツキャプチャデバイスは、以下に記載する仮想現実コンテンツキャプチャデバイスを備える。
[0030]
仮想現実(VR)は、メガネ、ゴーグル、網膜ディスプレイ等のヘッドセット、またはユーザを囲む1つ以上のディスプレイ画面を備えるVRディスプレイを使用して、ユーザに没入型仮想体験を提供し得る。仮想現実装置は、VRディスプレイを含んでも含んでいなくてもよく、仮想現実シーンを表すマルチメディアVRコンテンツをユーザに提示して、ユーザが仮想現実シーンの中に存在するシミュレーションを実現してもよい。よって、1つ以上の例では、VR装置は、ユーザに対してVRコンテンツを表示するためのVRディスプレイにシグナリングを提供し、1つ以上の別の例では、VR装置は、例えばヘッドセットの一部のようにVRディスプレイの一部であってもよい。したがって、仮想現実シーンは、ユーザがあたかもその場にいるようにそのシーンに没入していると感じられ、ユーザの周りに表示されたVRコンテンツでVR空間を見回すように、3次元仮想現実空間内に表示されたVRコンテンツを含んでもよい。仮想現実シーンは、実在シーンを再現し、ユーザが実在の場所に物理的に存在しているようにシミュレーションを実現してもよいし、または仮想現実シーンは、コンピュータが生成したものであっても、コンピュータが生成したものと現実世界のマルチメディアコンテンツとの組合せであってもよい。このように、VRコンテンツは、表示用に仮想現実シーンを生成し得る画像群(例えば静止画または動画像群)、音声および/またはこれらに伴うデータを含むものと考えられてもよい。したがって、VR装置は、VRコンテンツを表示する仮想で3次元のVR空間を生成することによって、VRシーンを提供してもよい。仮想現実空間は、広視野または360°の視野(さらに水平方向の視野の上方および/または下方を含む場合もある。例えば360°×180°)を有するビデオを含む(パノラマ式生中継等の)パノラマ式ビデオにより提供されることもある。パノラマ式ビデオは、ユーザの視野よりも広く、または当該パノラマ式ビデオの表示を意図されている視野よりも広くなるような広視野を有してもよい。
[0031]
ユーザへの提示用に提供されたVRコンテンツは、例えばVRコンテンツキャプチャデバイスが撮影した現実世界のライブ画像群または録画を含んでもよい。VRコンテンツキャプチャデバイスの例としては、Nokia TechnologiesのOZOデバイスが挙げられる。VRシーンは、通常、ユーザがVRディスプレイで見ることができる部分よりも大きいため、VR装置はVRディスプレイ上での表示のために、VRシーンの仮想現実視界をユーザに提供してもよい。このVR視界では、一度に見ることができるVRコンテンツの空間的部分を示すのみである。VR装置は、ユーザの頭部および/または目の動きに基づいて、VRシーン内のVR視界のパンニングを実現してもよい。VRコンテンツキャプチャデバイスは、1人以上のユーザに表示するためにVRコンテンツを撮影するように構成されてもよい。VRコンテンツキャプチャデバイスは、1つ以上のカメラを備えてもよく、任意で、ある撮影視点の周囲の視聴覚シーンをキャプチャするように構成された1つ以上の(例えば指向性)マイクまたはマイクアレイを備えてもよい。一部の例では、VRコンテンツキャプチャデバイスは、物理的に離して設けられた複数のカメラおよび/またはマイクを備える。これにより、VRコンテンツキャプチャデバイスを用いて、音楽演奏を撮影(および記録)してもよい。このとき、VRコンテンツキャプチャデバイスはステージ上に置かれて、演奏者がその周囲を動き回ってもよいし、または観客の視点からの撮影であってもよい。いずれの場合も、VRコンテンツの消費者は、VR装置のVRディスプレイを用いて周囲を見回し、あたかもその場にいるように撮影地での演奏を体験し得る。
[0032]
拡張現実(AR)では、メガネ、ゴーグル、仮想網膜ディスプレイ等のARディスプレイを用いて、(メガネまたはゴーグルを通して見たもの等)現実世界の視界を、(キャプチャされたコンテンツから電子的に作成、切り取り、またはその他の方法で抽出され得る)コンピュータが生成したコンテンツによって拡張してもよい。拡張現実装置は、ARディスプレイを含んでも含んでいなくてもよく、現実世界のユーザの視界に重ねるように構成されたマルチメディアARコンテンツを提示してもよい。これにより、拡張現実のユーザは、拡張現実装置が提供するコンテンツによって拡張または補完される、ユーザの周囲の現実世界環境を見ることができる。これは、現実世界のユーザの視界に重ねてもよく、および/またはユーザに聞こえる聴覚現実世界のシーンに聴覚的に重ねてもよい。コンテンツは、絵、写真、動画、図、文字情報、聴覚コンテンツ等のマルチメディアコンテンツを含んでもよい。これにより、拡張現実が、コンピュータが生成したグラフィックおよび/または音声コンテンツを追加することにより現実世界を直接見ることを可能にする一方、仮想現実のユーザは、実質的に現実世界を直接見ることなしに、仮想現実装置のVRディスプレイ上に提示されたコンテンツを見ることができるのみである。
[0033]
仮想現実コンテンツは、既定視点位置VRまたは自由視点位置VRを備えてもよく、このVRコンテンツを提示するVR装置は、既定視点位置VRまたは自由視点位置VRを提供してもよい。既定視点位置VRでは、仮想現実空間におけるユーザの場所は、固定されているか、既定の経路をたどってもよい。これにより、ユーザは、仮想現実空間内でユーザの周囲に表示するために提供される仮想現実画像群に対して見る方向を自由に変えることができ得るが、VR空間を探索すべくこの空間内の視点位置を任意で変更することはできない場合がある。よってユーザは、固定された視点または視点位置(または複数のVRコンテンツキャプチャデバイスがシーン内のどこに置かれているかに基づく限定された数の場所)からこのVRコンテンツを体験し得る。既定視点位置VRの一部の例では、画像群がユーザの周囲を通過するととらえられる。現実世界をキャプチャした既定視点位置VRコンテンツでは、ユーザは、VRコンテンツキャプチャデバイスの視点が提供され得る。既定視点位置VRコンテンツでは、ユーザにx、y、z軸のいずれか1つを中心とした見る方向の回転を含むVR空間における3自由度が提供され、3自由度(degrees of freedom)VR(3DoF VR)として知られている。
[0034]
本明細書に記載の例示的装置の実施形態は、VR装置またはAR装置を備えてもよい。ARまたはVRコンテンツは、既定視点位置型であっても、自由視点位置型であってもよい。多くの例では、特にコンテンツが実在形状にマッピングされている場合は、ARは主に自由視点位置型であると考えられる。
[0035]
1つ以上の例では、音声を空間オーディオとして提示すると、特にVRコンテンツ等のビジュアルコンテンツと共に使用した場合、空間オーディオの没入型の特性により豊かで圧倒的な体験を提供する。1つ以上の例では、ユーザにとって、キャプチャされた音声の空間オーディオ提示および視覚的画像群の提示からのシーン102を理解しにくい場合がある。1つ以上の例では、ユーザにとって、シーン内の最も関連あるコンテンツを即座に特定するのが難しく、例えば、シーンの探索を継続するか、またはコンテンツの提示を終了して別のシーンに切り替えるかの決定が難しい場合がある。装置101は、ユーザの体験を向上させるようにキャプチャされた空間オーディオコンテンツを提示してもよく、少なくとも一部の例では、シーンとそこに提供される各種音声およびビジュアルコンテンツの理解を助ける。よって、1つ以上の例では、空間オーディオコンテンツを効果的に提示するのは難しい場合があり得る。現実世界では、ユーザは周囲の状況をよりよく把握し、自らが置かれているシーンを理解することができる。しかし、実在の場所を模した、またはコンピュータが生成した場所を含み得る空間オーディオおよび視覚的画像群の提示では、理解が十分とならず、コンテンツが提示される方法は、コンテンツの消費者に提示されているもののコンテキストを確実に理解させるための技術的課題を伴う。さらなる例として、実在刺激および拡張刺激のある拡張現実の提示は混乱を来す場合があり、よって、拡張現実コンテンツの効果的な提示ができると有利である。
[0036]
図1の例示的システム100は、少なくともヘッドフォン105やその他の形態の音声提示機器(スピーカ等)を備えてもよい提示デバイスによって、キャプチャされた空間オーディオコンテンツを提示するための装置101を示す。装置101は、携帯電話、スマートフォン、スマートウォッチ、ノートブックコンピュータ、タブレットコンピュータ、ウェアラブルデバイス等の演算装置106の一部を備えてもよい。この例では、プロセッサ101Aおよびメモリ101Bが演算装置106および装置101によって共用されているが、別の例では、これらはそれぞれ個別のプロセッサおよび/またはメモリを有してもよい。
[0037]
装置101は、プロセッサ101Aおよびメモリ101Bを備えるか、これらに接続されてもよく、コンピュータプログラムコードを実行可能に構成されてもよい。装置101は、プロセッサ101Aおよびメモリ101Bをそれぞれ1つのみ有してもよいが、別の実施形態では、複数のプロセッサおよび/または複数のメモリが利用されてもよいことが理解されよう(例えば、プロセッサ/メモリの種類は同じでも異なっていてもよい)。さらに、装置101は特定用途向け集積回路(ASIC)であってもよい。
[0038]
プロセッサは、メモリ内に、コンピュータプログラムコードとしてメモリに記憶された指示に応じて、およびオーディオフォーカス決定装置107、コンテンツ記憶部108等のその他の構成要素から受信した情報を実行/処理することに特化した汎用プロセッサであってもよい。プロセッサのそのような動作により生成された出力シグナリングは、提示デバイス105等のさらなる構成要素へと提供される。
[0039]
メモリ101B(必ずしも単一のメモリ単位ではない)は、コンピュータプログラムコードを記憶するコンピュータ可読媒体(この例ではソリッドステートメモリだが、ハードドライブ、ROM、RAM、フラッシュメモリ等その他種類のメモリであってもよい)。コンピュータプログラムコードは、プロセッサ上で動作時に、プロセッサが実行可能な指示を記憶する。1つ以上の例示的実施形態において、メモリとプロセッサとの間の内部接続が、メモリとプロセッサとの間のアクティブ接続を実現することが理解されたい。これにより、プロセッサがメモリに記憶されたコンピュータプログラムコードにアクセスできる。
[0040]
この例では、各プロセッサおよびメモリは、互いに電気的に内部接続される。これにより、各構成要素間の電気的通信が可能となる。この例では、構成要素は互いに近接しており、ASICを形成する。言い換えると、この構成により、電子デバイスに実装可能な単一のチップ/回路となるように一体化される。いくつかの例では、構成要素の内の1つ、複数、または全てが、互いから離して設けられてもよい。
[0041]
装置101、または装置101の制御下にある演算装置106は、キャプチャされた空間オーディオコンテンツを提示してもよく、任意で、キャプチャされた視覚的画像群を提示してもよい。1つ以上の例では、装置101は、キャプチャされた空間オーディオコンテンツを提示し、キャプチャされた視覚的画像群は提示しないように構成されてもよい。視覚的画像群コンテンツは、装置106等の別の装置によって表示用に提供されてもよい。一方、他の実施形態では、装置101または装置101および106の組合せが、キャプチャされた視覚的画像群とキャプチャされた空間オーディオコンテンツとの両方を提示してもよい。1つ以上の例では、提示デバイス105はディスプレイおよびヘッドフォンを備え、別の例では、提示デバイスはVRヘッドセットを備える。
[0042]
装置101は、記憶部108からキャプチャされた空間オーディオコンテンツを示すシグナリングを受信してもよく、このコンテンツは1つ以上のコンテンツキャプチャデバイス102によってキャプチャされていてもよい。前述のように、キャプチャデバイス102は、Nokia OZOカメラ等のVRコンテンツキャプチャデバイスを備えてもよい。キャプチャデバイス102は、これが配置されているシーンの少なくとも空間オーディオコンテンツをキャプチャするように構成されてもよい。1つ以上の例では、コンテンツキャプチャデバイス102は、シーン104の視覚的画像群および空間オーディオコンテンツをキャプチャするように構成される。
[0043]
装置101は、ライブの(例えば、キャプチャされているイベント時点で)、または事前に記録された(例えば、キャプチャされているイベント時点後に)空間オーディオコンテンツを提示するように構成されてもよい。このように、事前に記録されたコンテンツの場合、記憶部108は、装置101がアクセスする物理的記憶デバイスまたはリモートサーバを表してもよく、これにはキャプチャされた空間オーディオコンテンツのコピーを含む。ライブコンテンツの場合、記憶部108は、ユーザに提示される前のキャプチャされた空間オーディオコンテンツのバッファまたは一時的記憶部を表してもよい。さらに、コンテンツキャプチャデバイス102、記憶部108、および装置106、108を備えるシステム100は、1つのデバイスを備えてもよく、これによって、シーンのキャプチャと提示が同じ装置によって実施されてもよい。別の例では、コンテンツキャプチャデバイス102は装置101、106とは切り離されていてもよく、キャプチャされた空間オーディオコンテンツおよび視覚的画像群を、1つ以上の別の装置101がアクセスできるように、記憶部108に伝達してもよい。システム100は、コンテンツのキャプチャおよびコンテンツを提示するための装置101、106、105の両方を示しているが、これはシステム全体を理解するために示したのみであり、コンテンツのキャプチャおよび記憶は、このコンテンツの提示とは別に実施されてもよい。
[0044]
例示的シーン104には、父親110と息子111とペットの犬112が含まれている。コンテンツキャプチャデバイス102は、キャプチャされた視覚的画像群の視野を表す点線113で示されているように、父親と息子110、111の視覚的画像群をキャプチャしている、あるいは既にキャプチャしており、一方、犬112は視野113外にいる。視野113は、キャプチャされたビジュアルコンテンツ内でキャプチャされ、見ることができるものの空間的広がりを表してもよいと理解されるが、別の例では、キャプチャされたものの空間的広がりは、任意の時点でユーザに提示されたものよりも大きくてもよい。シーン104は、父親の叫び114、犬の吠え声115、さらに別の音源116を含む複数の音源を含む。したがって、キャプチャされた音声は、キャプチャデバイス102によってキャプチャされた、シーン104内の方向117、118、119または場所を有する。このように、1つ以上の例では、複数の指向性マイクまたはマイクアレイを使用して、異なる方向からの音声を聞き分けてもよい。1つ以上の例では、テレビ製作の実施形態等において、音声は、各音源に対応付けられた位置追跡近接マイクから受信されてもよい。1つ以上の例では、アンビソニック音声キャプチャまたはその他の関連する複数マイク構成およびキャプチャ処理等の音声がキャプチャされる方法は、音源の空間的配置の再現を本質的に行っている。
[0045]
1つ以上の例では、装置101は、例えば装置101または装置106によって提示されてもよいキャプチャされた視覚的画像群の提示を伴うように、キャプチャされた空間オーディオコンテンツを提示するように構成されてもよい。装置101は、以下の受信した情報に基づいて前記提示を行ってもよい。
(i)キャプチャされた空間オーディオコンテンツ;
(ii)ビジュアルフォーカス情報、および、任意で,
(iii)オーディオフォーカス情報。
[0046]
シーン104のキャプチャされた空間オーディオコンテンツは、前記音声がキャプチャされたシーン104内の少なくとも方向117、118、119を示す情報と対応付けられた、シーン104内の音源114、115、116からキャプチャされた音声を含んでもよい。1つ以上の例では、キャプチャされた音声は、コンテンツキャプチャデバイス102の場所に関連する等、シーン104内の場所を示す情報に対応付けられていてもよい。キャプチャされた空間オーディオコンテンツは、コンピュータ生成コンテンツを含んでもよい。
[0047]
キャプチャされた視覚的画像群の提示は、フォーカスを伴っていてもよい。フォーカスは、1つ以上の例では、キャプチャされた視覚的画像群の現在の視野113を含んでもよく、よって、シーン104に対するフォーカスを含んでもよい。このようにして、フォーカスを有する視覚的画像群の一部は、ユーザに対して現在提示されている視覚的画像群を含んでもよい。1つ以上の例では、キャプチャされた視覚的画像群は、ユーザに提示されているものの空間的広がりよりも大きい空間的広がりを有してもよく、よってフォーカスは、現在提示されているキャプチャされたビジュアルコンテンツの空間的広がり全体の空間的小区分を含んでもよい。1つ以上の例では、フォーカスは、視覚的画像群の空間的広がりの全体、またはユーザに現在提示されているもの、もしくはユーザによって選択されたものの空間的広がり全体の空間的小区分を含んでもよい。この空間的小区分は、ユーザに提示された残りの視覚的画像群から見分けがつくように視覚効果が適用されていてもよい。要するに、フォーカスは、視覚的な違いをもって、ユーザに提示されているものの残りの部分よりも、シーンの視覚的画像群またはその一部にフォーカスを当てて見せることを含む。
[0048]
装置101に提供されるビジュアルフォーカス情報は、装置101に、シーン104の少なくとも第1の部分120を、キャプチャされた視覚的画像群に表されたものとして、またはユーザに提示されたものの空間的小区分を通知してもよい。よって第1の部分120は、キャプチャされたシーンのどこに、またはユーザに現在提示されている視界のどこに、ユーザへの提示用にフォーカスが当てられているのかを指定することを含んでもよい。キャプチャされた視覚的画像群の提示は、別の装置によって行われてもよく、ビジュアルフォーカス情報は、この別の装置によって報告されてもよいし、装置101による問合せへの応答として提供されてもよい。1つ以上の例では、装置101は、キャプチャされた視覚的画像群を提示し、よって装置101は、第1の部分を決定してもよい。
[0049]
これにより、上述の情報に基づいて、装置101は、キャプチャされた視覚的画像群の提示を伴うようにキャプチャされた空間オーディオコンテンツを提示してもよく、このキャプチャされた空間オーディオコンテンツは、前記ユーザに対して、当該キャプチャされた空間オーディオコンテンツに示された方向から発せられる音声の知覚を提供するように構成された空間オーディオとして提示される。装置101は、1つ以上の例では、第1の部分120とはシーンの異なる部分からキャプチャされた空間オーディオコンテンツの一部のみに選択的に適用された空間オーディオフォーカスを有する空間オーディオコンテンツが提示される。この例では、空間オーディオフォーカスが、第1の部分120とは異なるキャプチャされたシーン104の第2の部分121からの音声に適用される。空間オーディオフォーカスは、キャプチャされたシーン104において互いに離れていてもよい第2の部分等の1つ以上の第2の部分121に適用されてもよいことが理解されよう。
[0050]
第2の部分121は、さらにオーディオフォーカス情報に基づいて選択されてもよい。このオーディオフォーカス情報は、キャプチャされた空間オーディオコンテンツに表されたように、キャプチャされた空間オーディオコンテンツにフォーカスを当て得る、キャプチャされたシーン104の少なくとも1つの部分を示す情報を含む。オーディオフォーカス情報は、シーンの複数の候補部分を示してもよい。オーディオフォーカス情報は、音声が受信された(すなわち、方向117、118、119から)キャプチャされた空間オーディオコンテンツに表されたシーンの部分を単に特定してもよい。1つ以上の例では、オーディオフォーカス情報は、オーディオフォーカス決定装置107から受信されてもよい。オーディオフォーカス決定装置107は、音源110、112、116を特定すべく、キャプチャされた空間オーディオコンテンツのコンピュータが実施する聴覚的分析を行ってもよく、その1つ以上を所定の基準に対して最も関連があると示唆してもよい。オーディオフォーカス決定装置107は、キャプチャされた視覚的画像群の視覚的分析に基づいてキャプチャされた空間オーディオコンテンツに焦点があてられるべきシーン104の一部(複数可)の決定を行ってもよい。このようにして、この例では、オーディオフォーカス決定装置107は、音声114は犬を呼ぶ父親であるが、その犬は視野内にいないと判断してもよい。これにより、キャプチャされた空間オーディオコンテンツにフォーカスが当てられるべきシーン104の少なくとも1つの部分が、方向118の犬112に対応する部分であると選択されてもよい。1つ以上の例では、オーディオフォーカス決定装置107は、装置101の一部を含んでもよく、これによって、装置101は 、キャプチャされた空間オーディオコンテンツにフォーカスが当てられるべきシーン104の部分を決定してもよい。
[0051]
オーディオフォーカス情報は、キャプチャされた視覚的画像群およびキャプチャされた空間オーディオコンテンツの提示が意図されているユーザに特有のものであってもよい。このようにして、装置101には、キャプチャされた視覚的画像群およびキャプチャされた空間オーディオコンテンツが提示されるユーザを特定する情報が設けられていてもよく、これによって、キャプチャされた視覚的画像群およびキャプチャされた空間オーディオコンテンツのユーザへの提示をカスタマイズしてもよい。別の例では、装置101には、少なくとも異なる視聴覚コンテンツの視聴履歴に関するパラメータが設けられていてもよく、これを現在の視聴覚コンテンツ用にフォーカスを当てるための空間オーディオコンテンツの一部を特定するために使用してもよい。
[0052]
これにより、上述の情報に基づいて、装置101は、キャプチャされた視覚的画像群の提示を伴うようにキャプチャされた空間オーディオコンテンツを提示してもよく、このキャプチャされた空間オーディオコンテンツは、前記ユーザに対して、当該キャプチャされた空間オーディオコンテンツに示された方向から発せられる音声の知覚を提供するように構成された空間オーディオとして提示される。装置101は、1つ以上の例では、オーディオフォーカス情報に基づいてキャプチャされた空間オーディオコンテンツの一部のみに選択的に適用された空間オーディオフォーカスを有する空間オーディオコンテンツが提示される。この例では、空間オーディオフォーカスは、第1の部分120とは異なるキャプチャされたシーン104の第2の部分121からの音声に適用される。空間オーディオフォーカスは、キャプチャされたシーン104において互いに離れていてもよい第2の部分等の1つ以上の第2の部分121に適用されてもよいことが理解されよう。
[0053]
1つ以上の例では、オーディオフォーカス情報は、キャプチャされたシーン104の1つ以上の部分を含んでもよく、第1の部分120を除外してもよい。1つ以上の別の例では、オーディオフォーカス情報は、キャプチャされたシーン104の複数の部分を示唆してもよく、装置101は、第1の部分120から場所または方向の異なるという基準に少なくとも基づいて、複数の部分の内の1つを選択してもよい。
[0054]
この例では、空間オーディオフォーカスは、方向117、119から等の、キャプチャされたシーン104の他の場所からの音声に比べて第2の部分に対応する方向118を有する音声の可聴度を増加する音声変更効果を含む。この可聴度の増加は、(i)方向118からの音声に対してより大きい相対的音量増加を提供すること、(ii)キャプチャされたシーン102の他の場所からの音声の音量を減衰させること、(iii)方向118からの空間オーディオの知覚される空間的幅を増やすこと、または(i)、(ii)、および(iii)の2つ以上の組合せのいずれかによって実現されてもよい。このようにして、1つ以上の例では、音声変更効果は、第2の部分に対するオーディオフォーカスと共に、第1の部分からではない他の音声に対して、第2の部分からの音声の可聴度を増加する。
[0055]
これにより、1つ以上の例では、ビジュアルフォーカスとは異なるオーディオフォーカスを当てることにより、キャプチャされた視覚的画像群および空間オーディオコンテンツを理解することを助けてもよい。この例では、第2の部分121は第1の部分120と重複していないが、別の例では重複していてもよい。1つ以上の例では、第2の部分121は、視野113の外側となるように選択される。別の例では、第1および第2の部分の両方が視野113内にあってもよい。例えば、キャプチャされた視覚的画像群の提示は、息子111にフォーカスが当てられていてもよい。一例として、視覚的画像群は被写界深度が小さい場合があり、したがって、コンテンツキャプチャデバイスにより近い息子111に光学的フォーカスが当てられ、一方、父親110には光学的フォーカスが当てられなくてもよい。これにより、ビジュアルフォーカス情報は、息子111が存在するキャプチャされたシーンの部分に対応するものとして第1の部分を示してもよい。オーディオフォーカス情報は、音声変更効果が適用されるべきキャプチャされたシーンの部分として音声114を指定してもよく、よって視覚的画像群は、息子111にフォーカスが当てられ、一方、空間オーディオコンテンツは、父親110からの音声114にフォーカスが当てられていてもよい。
[0056]
前述のように、装置101は、オーディオフォーカス情報の決定を行ってもよい。所定の基準を基に、オーディオフォーカス情報は、キャプチャされた空間オーディオコンテンツのコンピュータが実施する聴覚的分析およびキャプチャされた視覚的画像群のコンピュータが実施する視覚的分析の一方または両方に基づいてもよい。装置101は、ビジュアルフォーカスに対する第1の部分の選択がオーディオフォーカス情報に対する異なる部分の選択を起こさせるように構成されていてもよい。オーディオフォーカス情報は、ニューラルネットワーク処理またはその他の機械学習技術によって決定されてもよい。ニューラルネットワーク処理または機械学習技術は、例えば、ユーザ(または多数の異なるユーザ)に提示されたその他の空間オーディオコンテンツ上で訓練されてもよい。オーディオフォーカス情報は、例えば、ビジュアルフォーカス情報に関連する状況的重要性に基づいて選択されてもよい。このようにして、第2の部分121の選択は関連性があり、一部の例では、ユーザに特有のものであってもよい。
[0057]
1つ以上の例では、オーディオフォーカス情報は、ユーザからの、キャプチャされたシーン104の少なくとも1つの部分に対するユーザの選択に基づいていてもよい。このようにして、キャプチャされた空間オーディオおよび視覚的画像群コンテンツを見ているユーザは、手動で第2の部分121を選択し、任意で第1の部分120を選択してもよい。
[0058]
1つ以上の例では、オーディオフォーカス情報は、音声の好みを示すユーザ設定のプロファイル設定に基づいていてもよい。この例として、好みの音(音楽の種類または鳥の鳴き声)や特定の音源(視覚的画像群内に現れている家族や動物等)が挙げられる。
[0059]
1つ以上の例では、オーディオフォーカス情報は、装置101が提示用にコンテンツを提供するユーザに対応付けられた履歴データに基づいていてもよい。この履歴データは、ユーザによる、これまで消費した別のコンテンツでの音源に対する1つ以上のユーザの選択を示していてもよい。これにより、キャプチャされた空間オーディオコンテンツに聴覚的に存在する特徴、またはキャプチャされたビジュアルコンテンツに視覚的に現れる特徴は、ユーザに事前に提示され、任意で、ユーザによって手動で選択された、キャプチャされた別の視聴覚コンテンツにも現れる特徴に基づく視覚的分析および/または聴覚的分析によって特定されてもよい。
[0060]
1つ以上の例では、オーディオフォーカス情報は、ユーザに対応付けられた履歴場所データを含む、場所に特有のデータに基づいていてもよい。この履歴場所データは、キャプチャされた空間オーディオコンテンツに聴覚的に存在し、またはキャプチャされたビジュアルコンテンツに視覚的に現れ、さらに、シーンのある決定された場所に対応する場所にいるユーザに事前に提示されたキャプチャされた別の視聴覚コンテンツにある共通の特徴を示す。対応する場所としては、対応する地理的な場所または対応する地域、建物または部屋、例えば、公園(地理的に異なる場所を有する公園であってもよい)、図書館(地理的に異なる場所を有する図書館であってもよい)、またはリビングルームまたはキッチン(別の家の中であってもよい)が挙げられる。
[0061]
1つ以上の例では、オーディオフォーカス情報は、時間に特有のデータに基づいていてもよい。この時間に特有のデータは、キャプチャされた空間オーディオコンテンツと、最近の時間または対応する時刻または時期を含む関連する時間にキャプチャされた、別の視聴覚コンテンツに共通の音声を示す履歴データを含む。このようにして、一例として、去年のクリスマスにキャプチャされたビデオ内にある空間オーディオコンテンツは、今年のクリスマスにキャプチャされたコンテンツ内で特定され、音声変更効果の適用のために特定されてもよい。
[0062]
要するに、オーディオフォーカス情報は、空間オーディオおよび視覚的画像群の提示が意図されたユーザを特定する情報に基づいてもよく、キャプチャされた視覚的画像群およびキャプチャされた空間オーディオコンテンツを消費する際にユーザに対して特注の体験を提供するために、ユーザに関する既知の情報に基づいてカスタマイズされる。
[0063]
1つ以上の例では、装置は、キャプチャされた空間オーディオコンテンツの提示において、キャプチャされた空間オーディオコンテンツを、キャプチャされた時間および場所の一方または両方に基づいて、当該キャプチャされた空間オーディオコンテンツに関連する別のキャプチャされた空間オーディオコンテンツと混成するように構成される手段を有する。空間オーディオフォーカスは、混成された別のキャプチャされた空間オーディオコンテンツの第2の部分に適用される。このようにして、装置101が受信したキャプチャされた空間オーディオコンテンツは、シーンからのコンテンツを含んでもよいが、ユーザの好み、時間、または場所の1つによってシーンに対応すると判定された別のシーンからのコンテンツも含んでもよい。
[0064]
キャプチャされた空間オーディオコンテンツおよび対応する視覚的画像群は、ライブで提示されてもよいし、記録されて後に提示されてもよい。
[0065]
1つ以上の例では、キャプチャされた視覚的画像群およびキャプチャされた空間オーディオコンテンツは、ライブで提示され、装置101による空間オーディオフォーカスの適用によって、コンテンツキャプチャデバイス102へのシグナリングのフィードバックを送信する。このようにして、視覚的画像群および空間オーディオコンテンツの消費者は、デバイス102によってコンテンツが如何にキャプチャされるかを制御してもよい。フィードバックシグナリングは、コンテンツキャプチャデバイス102による音声変更効果の適用を行うように構成されてもよい。このようにして、装置101は、コンテンツキャプチャデバイス102における空間オーディオゲインの適用の制御を行ってもよいし、マイクが向けられている方向を制御してもよい。これにより、ユーザが所望したものとして、コンテンツキャプチャデバイス102によって、キャプチャされた空間オーディオコンテンツが処理またはキャプチャされると、コンテンツキャプチャデバイス102によって記憶部108に送信されるデータの削減が行われてもよい。このようにして、適切なゲイン設定による空間オーディオコンテンツのキャプチャによって、音声変更効果の適用が行われる。フィードバック制御チャネル122は、前記制御を行ってもよい。この通信チャネル122は、直接またはネットワークを介して提供されてもよい。
[0066]
別の例では、ライブまたは事前記録された提示のいずれであっても、キャプチャされた視覚的画像群は、ビジュアルフォーカス情報に応じて、視覚的画像群の被写界深度の位置および深さの一方または両方に関して、光学的フォーカスを変更できるような光学的に再フォーカス可能なフォーマットでキャプチャされてもよい。視覚的画像群の提示における光学的フォーカスは、キャプチャされた視覚的画像群がキャプチャされた、またはレンダリングされた、視点に対する視覚的画像群に現れる物体の深さを有する視覚的画像群の鮮鋭度を含むことが理解されよう。
[0067]
コンテンツキャプチャデバイスは、再フォーカス可能な画像フォーマットの当業者には既知のように、光照射野カメラを備えてもよい。別の例では、キャプチャされた視覚的画像群は、キャプチャされた視覚的画像群内の視覚的画像群に現れる物体の深さが既知であり、視覚的画像群の被写界深度の鮮鋭度および深さという点で、シミュレーションされた光学的フォーカスが、キャプチャされた視覚的画像群に対する画像処理によって適用されるように、シーン深さ情報に対応付けられていてもよい。さらなる実施形態では、再フォーカス可能画像フォーマットは、異なるフォーカス距離および/または被写界深度で複数の個別の画像キャプチャに基づくことができる。このような方法は、動画キャプチャよりも静止画像キャプチャに特に適している場合がある。
[0068]
簡単に前述したように、装置101は、記憶部108からのシーン104のキャプチャされた視覚的画像群に基づいて、ユーザに対する提示用にフォーカスが当てられたビジュアルフォーカス情報に定義された、キャプチャされたシーン104の第1の部分120を有するキャプチャされた視覚的画像群の提示を行うように構成されてもよい。キャプチャされたシーン104の第1の部分120は、提示用に提供された視野113内にあるキャプチャされたシーン104の空間的小区分を含む第1の部分120について、ユーザへの提示用にフォーカスが当てられたととらえられる。1つ以上の例では、第1の部分120は、光学的フォーカスが小さい表示用に提供された視野113における視覚的画像群の残りの部分に比べて光学的フォーカスが当てられた、提示用に提供された視野113の空間的小区分を含む。これにより、装置101は、再フォーカス可能画像フォーマットを使用して視覚的画像群の光学的フォーカスの制御を行ってもよく、または同様の知覚された視覚的効果を提供するための光学的フォーカス効果の適用を行ってもよい。
[0069]
キャプチャされた視覚的画像群は、複数の異なる形態であってもよい。例えば、シーン104のキャプチャされた視覚的画像群は、
a)当該シーンの静止画像と、
b)当該シーンのビデオ画像群と、
c)任意の時点でユーザに提示可能な空間的広がり113よりも大きな空間的広がりを有する、当該シーンの仮想現実画像群と、
の1つを含む。
[0070]
キャプチャされた視覚的画像群およびキャプチャされた空間オーディオコンテンツの提示の間、装置101は、どの音声に対してオーディオフォーカスが適用されるかの変更または更新を行ってもよい。この変更または更新は、ビジュアルフォーカス情報における変化、またはキャプチャされた空間オーディオコンテンツ自体における変化に応じたものであってもよい。例えば、事前にフォーカスが当てられた音源は、ビデオ画像群の場合はシーン104を離れており、キャプチャされた空間オーディオコンテンツ内に既に存在しなくなってもいる場合がある。一方、音源は、時間を経て非動作となってもよい。事前に記録されたコンテンツの場合、動作状態から非動作状態への音源の推移が永続的な変更であるか否かがさらに既知であり得る。ライブキャプチャの場合、例えば、現在の発言が終わった話者(またはその他の音源)がその後は黙ったままでいると、非動作となっているのか否かが一般的には分からない。このような理由により、オーディオフォーカス対象の更新には、時間遅延またはヒステリシスを含んでもよい。
[0071]
1つ以上の例では、装置101は、(i)ユーザへの提示用に提供されたキャプチャされた視覚的画像群にフォーカスを当てるべき、第1の部分120とは異なる、キャプチャされたシーン104の少なくとも第3の部分を定義するための、ビジュアルフォーカス情報における変更に基づき、さらに(ii)キャプチャされた視覚的画像群の提示を伴うために、キャプチャされた空間オーディオコンテンツの進行中の提示に基づき、第2の部分121とは異なる、シーンの第4の部分からキャプチャされた音声に選択的に適用された空間オーディオフォーカスにおける変更を行うように構成されてもよい。
[0072]
上述の一例として、息子111が急に何かに反応する場合があり得る。この例では、第3の部分が息子111を示す視覚的画像群の部分を含む。ユーザへの提示用に提供された視覚的画像群は、息子111に光学的フォーカスを当て、一方、父親110を光学的フォーカスから少し外すように修正してもよい。ビジュアルフォーカス情報における変更は、1つ以上の例では、キャプチャされた空間オーディオコンテンツの聴覚的分析を行うために装置101を始動させ、これによって、息子111が反応した可能性のある音源116からの大きな音の発生を特定してもよい。したがって、オーディオフォーカスは、さらなる音源116を含むキャプチャされたシーン104の部分を含み得る第4の部分に適用するように変更されてもよい。1つ以上の例では、さらなる音源116を含むシーンの部分は、第2の部分121内の犬112に適用されている既存のオーディオフォーカスを置き換えるのではなく、これに追加されてもよい。これにより、音声変更効果は、犬112からの音声を含む第2の部分121および音源116からの音声を含む第4の部分の両方に適用されてもよい。
[0073]
装置101がキャプチャされた空間オーディオコンテンツの変化に如何に反応するように構成され得るかの一例として、装置101は、(i)シーン内の音源114、115、116の変化およびシーン104内の音源114、115、116の位置の変化の一方または両方を示すキャプチャされた空間オーディオコンテンツのコンピュータが実施する聴覚的分析に基づき、さらに(ii)キャプチャされた視覚的画像群の提示を伴うために、キャプチャされた空間オーディオコンテンツの進行中の提示に基づき、第1の部分120および第2の部分121とは異なる、シーンの第4の部分からキャプチャされた音声に対して選択的に適用された空間オーディオフォーカスにおける変更を行ってもよい。前述の例のように、第4の部分は、音源116を含む部分を備えてもよい。聴覚的分析は、1つ以上の例では、装置101によって実施されてもよい。聴覚的分析は、音声を含むシーンの部分を特定するために、キャプチャされた空間オーディオに基づいて、シーン104からキャプチャされた音声の異なる部分から、音声コンテンツの有無をモニタリングすることを含んでもよい。聴覚的分析は、オーディオフォーカスが適用された部分の位置を更新するために、キャプチャされたシーン104の音声を通して、音声の動きを追跡することを含んでもよい。聴覚的分析は、キャプチャされた視覚的画像群内に存在すると特定された物体に対して等、音声を発した物体または音声を生じた出来事(関連性に応じて分類または順位付けされてもよい)の音声認識を含んでもよい。
[0074]
装置101による聴覚的分析は、ライブでキャプチャされた空間オーディオコンテンツまたは事前に記録されたキャプチャされた空間オーディオコンテンツに適用されてもよい。ライブコンテンツの場合、現在のコンテンツおよび/または過去のコンテンツのみが聴覚的分析と対象となり得る。一方、事前に記録されたコンテンツの場合、聴覚的分析は、ユーザへの提示用に提供されてもよい、現在の再生時点より前のキャプチャされた空間オーディオコンテンツに適用されてもよい。
[0075]
このようにして、キャプチャされたビジュアルコンテンツおよびキャプチャされた空間オーディオコンテンツがライブ提示用に提供されている1つ以上の例では、装置101は、キャプチャされた空間オーディオコンテンツが設けられた方向情報に対して、キャプチャされたシーン104の1つ以上の候補となる第2の部分を決定するように構成される手段を備えてもよい。1つ以上の候補となる第2の部分の決定は、キャプチャされた時点のキャプチャされた空間オーディオコンテンツのコンピュータにより実施された分析に基づいてもよく、装置101は、前記空間オーディオフォーカスの適用のために前記候補となる第2の部分の1つ以上を選択するように構成される。
[0076]
このようにして、キャプチャされたビジュアルコンテンツおよびキャプチャされた空間オーディオコンテンツが事前に記録されたコンテンツである1つ以上の例では、装置101は、キャプチャされた空間オーディオコンテンツが設けられた方向情報に対して、キャプチャされたシーン104の1つ以上の候補となる第2の部分を決定するように構成される手段を備えてもよい。1つ以上の候補となる第2の部分の決定は、少なくとも部分的に、提示用のキャプチャされた空間オーディオコンテンツの提供に先行する、キャプチャされた空間オーディオコンテンツのコンピュータにより実施された分析に基づいていてもよく、装置101は、前記空間オーディオフォーカスの適用のために前記候補となる第2の部分の1つ以上を選択するように構成される。
[0077]
上述の例では、ビジュアルフォーカスがユーザに対して提示用に提供されるキャプチャされた視覚的画像群に対するキャプチャされたシーンの部分の変更は、また、オーディオフォーカスが適用されたキャプチャされた空間オーディオコンテンツに対するキャプチャされたシーンオーディオの部分の変更は、フォーカスにおける突然の変更を避けるよう徐々に提供されてもよい。このようにして、変更は所定の経過時間にわたって提供されてもよく、この間に、少なくとも1つの第2の部分の増加された可聴度は減少し、新たな第2の部分の可聴度は増加する。
[0078]
オーディオフォーカスの適用は、キャプチャされた視覚的画像群およびキャプチャされた空間オーディオコンテンツを含む視聴覚コンテンツの複数の事例を閲覧する際にさらに有益な適用となり得る。
[0079]
このようにして、1つ以上の例では、空間オーディオフォーカスが設けられたキャプチャされた空間オーディオの音声が、ユーザが選択可能なリンクと共にさらに提示される。ビジュアルグラフィック、音声、またはその他のフィードバックが、フォーカスが設けられた音声はユーザが選択可能なリンクであると示すように提供されていてもよい。装置101は、リンクのユーザ選択によって、キャプチャされた別の視覚的画像群と、対応するキャプチャされた別の視覚的画像群とを含む別の視聴覚コンテンツの提示を行うように構成される手段を有する。キャプチャされた別の視覚的画像群および対応するキャプチャされた視覚的画像群は、(i)空間オーディオフォーカスが設けられた音声と比較したコンピュータが実施する聴覚的分析に基づいて、聴覚的に類似していると判定されたキャプチャされた空間オーディオコンテンツと、(ii)空間オーディオフォーカスが設けられた音声の決定された音源に関連する音源の画像群を含むと判断されたキャプチャされた視覚的画像群の内の1つ以上を有してもよい。
[0080]
このようにして、装置101は、フォーカスにおける音声の分析と、ユーザによるフォーカスにおける音声のユーザ選択とに基づいて、別の視聴覚コンテンツへのリンクを提供するように構成されてもよい。ユーザの選択は、フォーカスにおける音声の方向118での所定のジェスチャ、またはその他の何らかのユーザ入力を含んでもよい。
[0081]
別の視聴覚コンテンツが類似のキャプチャされた空間オーディオコンテンツを有する場合、両方の視聴覚コンテンツに共通の、または類似の音声は、別の視聴覚コンテンツがユーザに対して提示用に提供された際に、オーディオフォーカスが設けられてもよい。別の視聴覚コンテンツが当該フォーカスを有する音源の特定に関連する類似の視覚的画像群を有する場合、別の視聴覚コンテンツにおける、当該音源を示す視覚的画像群の部分は、提示用にビジュアルフォーカスが設けられてもよい。
[0082]
例示的な図2は、装置101の機能的ブロックの例示的配置を示すブロック図である。
[0083]
キャプチャされた視覚的画像群およびキャプチャされた空間オーディオコンテンツは、ブロック201で装置に提供されてもよい。キャプチャされた視覚的画像群は、ブロック202で装置101によってレンダリングのために提供されてもよく、別の装置にレンダリングのために提供されてもよい。キャプチャされた空間オーディオコンテンツは、オーディオフォーカス情報の生成に供するため、1つ以上の第2の部分の特定のために状況による空間聴覚的分析ブロック203に渡されてもよい。ブロック203は、コンピュータが実施する視覚的および/または聴覚的分析を実施して、キャプチャされたシーン104における異なる方向からの音声を特定し、したがって1つ以上の所定の基準に基づいて、ユーザに状況的に関連するシーンの異なる部分からの音声を特定する。ブロック204は、視覚的画像群の提示にフォーカスが当てられた第1の部分を決定するための、少なくとも視覚的画像群に対するコンピュータが実施する画像分析の性能を表す状況による画像分析ブロックを含む。これにより、ブロック204は、ブロック203と同様に、画像群強化効果および音声変更効果を含むフォーカスを伴う提示用のキャプチャされたコンテンツの、状況的に関連する部分を特定するように構成される。ブロック205は、第1の部分の選択を示し、したがって、ビジュアルフォーカス情報の生成を示す。状況による空間聴覚的分析ブロック203は、特定される第2の部分121が第1の部分120とは異なるようにビジュアルフォーカス情報を受信してもよい。状況による空間聴覚的分析ブロック203は、場所、時間、上述のユーザに特有の基準の内の1つ以上に基づいて、キャプチャされた空間オーディオのコンピュータが実施する分析(ユーザ入力の有無は問わない)を実施してもよく、ブロック206に対してオーディオフォーカス情報を提供してもよい。ブロック206は、ブロック203からのオーディオフォーカス情報に基づいて、1つ以上の第2の部分121の選択を示す。ブロック207は、決定された第1および第2の部分120、121に適用された関連するビジュアルフォーカス効果および音声変更効果を有する、キャプチャされた視覚的画像群およびキャプチャされた空間オーディオコンテンツのレンダリング用に提供された、視覚的画像群フォーカスの選択された第1の部分および選択された空間オーディオコンテンツフォーカスを示す。ブロック208は、所望のビジュアルフォーカスに対する可能なユーザの選択を示す。このユーザの選択による第1の部分120の変更は、ブロック207に提供されて新たなフォーカスを有する視覚的画像群のレンダリングに供され、さらにブロック203に提供されて第1の部分120における変更に基づいて別の第2の部分121の可能な決定および選択(ブロック203および206)がなされる。
[0084]
例示的な図3は、ステップ301での提示用の視聴覚コンテンツの提供および視覚的画像群フォーカスまたは空間オーディオフォーカスの適用の変更の決定を示すフローチャートである。ステップ302は、提示用に提供されたキャプチャされた視覚的画像群における任意の変更の決定を示す。変更がなされていない場合、または変更が閾値を下回る場合、処理は303に戻る。視覚的画像群変更がなされている場合、処理はステップ304に進み、ユーザに対する視覚的画像群の提示におけるフォーカスが提供される第1の部分120を決定するための状況による画像分析が実施される。ステップ305は視覚的画像群フォーカスの選択を示し、ステップ306はビジュアルフォーカスを有する視聴覚コンテンツのレンダリングを示す。
[0085]
ステップ307は、音声コンテンツにおける任意の変更を特定するための、キャプチャされた空間オーディオコンテンツに対する聴覚的分析を実施するように構成された装置101を示す。ステップ308は、所定の「重要な変更」閾値を超えるキャプチャされた空間オーディオコンテンツにおける任意の変更の決定を示す。この閾値は一定であってもよく、少なくとも部分的にコンテンツに基づいて構成されてもよい。変更がなされていない場合、または変更が閾値を下回る場合、処理は309に戻る。キャプチャされた空間オーディオにおける変更がなされている場合、処理はステップ310に進み、ユーザに対するキャプチャされた空間オーディオコンテンツの提示におけるフォーカスが提供される1つ以上の第2の部分121を決定するための状況による空間聴覚的分析が実施される。ステップ311は空間オーディオフォーカスの選択を示し、ステップ306は選択された空間オーディオフォーカスを有する視聴覚コンテンツのレンダリングを示す。矢印312および313で示すとおり、視覚的画像群フォーカスにおける変更によってステップ310が開始され、ユーザに対するキャプチャされた空間オーディオコンテンツの提示におけるフォーカスが提供される1つ以上の第2の部分121を決定するための状況による空間聴覚的分析が実施される。
[0086]
図4および図5は、別のユーザにコンテンツを送信する第1のユーザによるキャプチャされた空間オーディオコンテンツおよび対応するキャプチャされた視覚的画像群のキャプチャの2つの例を示す。ここで、ビジュアルフォーカスおよび/または空間オーディオフォーカスは、コンテンツが提供されているユーザに基づいて決定される。
[0087]
図4を参照し、ステップ401は、第1のユーザによってキャプチャされている空間オーディオコンテンツおよび対応する視覚的画像群を示す。ステップ302は、第1のユーザに対するコンテンツの提示に使用される視覚的画像群フォーカスを決定する、第1のユーザの装置を示す。ステップ304は、第1のユーザに対するコンテンツの提示に使用される、第1のユーザのためのオーディオフォーカスを決定する、第1のユーザの装置を示す。ステップ305は、キャプチャされたコンテンツの送信先である、第2のユーザの装置を選択する第1のユーザを示す。前述のように、視覚的および/またはオーディオフォーカスは、コンテンツを見ているユーザに特有のものであってもよい。
[0088]
第1のユーザ装置は、306における状況による情報問合せを送信するように示され、これにはコンテンツ内にある物体/音源に関するコンテンツまたは情報を含んでもよい。ステップ307では、第2のユーザ装置は、第2のユーザに対する提示用にビジュアルフォーカスおよび空間オーディオフォーカスがどこに当てられるべきかの選択を行う。ステップ308は、第1のユーザ装置および第2のユーザ装置の一方または両方によって、コンテンツに適用されている選択されたビジュアルフォーカスおよび空間オーディオフォーカスに関する情報を示す。ステップ309は、第2のユーザの選択されたビジュアルフォーカスおよび選択された空間オーディオフォーカスを有する、第2のユーザ装置に対してキャプチャされた空間オーディオコンテンツおよび対応するキャプチャされた視覚的画像群を送信した、第1のユーザ装置を示す。これにより、第2のユーザは、自らの要件に合わせたビジュアルフォーカスおよびオーディオフォーカスを有するコンテンツを受信する。
[0089]
図5は、別の実施形態を示す。ステップ301〜307は実質的に同一であるため、同一の参照符号が使用される。ただし、ステップ307の後、本例の方法はステップ408に進み、第2のユーザ装置によるビジュアルフォーカスおよび空間オーディオフォーカス選択(複数可)に関する情報が第1のユーザ装置に伝達される。ステップ409は、ステップ306で送信された、選択されたビジュアルフォーカスおよび選択された空間オーディオフォーカスを有するコンテンツをレンダリングするため、第2のユーザ装置に指示を出す「受信者によるメディアフォーカス情報」を有するコンテンツを送信する、第1のユーザ装置を示す。ステップ410は、指示されたビジュアルフォーカスおよび空間オーディオフォーカスを有するコンテンツをレンダリングする、第2のユーザ装置を示す。
[0090]
図6は、図4および図5に示す概念の実用例を示す。図6は、スマートフォン601を備える第1のユーザ装置によってキャプチャされたシーン600を示す。第1のユーザ装置は、次に、602および603において、提示用にキャプチャされたコンテンツを2人の異なる受信者に送信する。ビジュアルフォーカスおよび空間オーディオフォーカスが、1つ以上の例では、コンテンツが提示されるユーザに特有のものであるため、コンテンツは受信者の装置のそれぞれに異なる形で表示されてもよい。これにより、装置601は、図4および図5に示す処理をそれぞれ実施してもよい。一例として、コンテンツは、コンテンツ内に現れる第1の人物からの音声に対する、円604で示すオーディオフォーカスを有する第1の受信者に提示される。一方、第2の受信者に提示されるコンテンツは、コンテンツ内に現れる第2の人物からの音声に対してフォーカスが当てられた、円605で示すオーディオフォーカスを有する。
[0091]
これにより、1つ以上の例では、装置は、状況選択情報に基づいて第2ユーザ装置に対してキャプチャされた空間オーディオおよび対応する視覚的画像群の送信を行うように構成されてもよく、コンテンツ内のどこにビジュアルフォーカスおよび/または空間オーディオフォーカスが当てられるべきかを含み、当該装置から第2ユーザ装置に送信されたキャプチャされたコンテンツに関する情報に少なくとも応じて、第2ユーザ装置から状況選択情報が受信される。このようにして、シーンのキャプチャされたコンテンツは、第2のユーザに関連するビジュアルフォーカスおよび/または空間オーディオフォーカスを有する第2ユーザ装置によって、第2のユーザに提示されてもよい。
[0092]
図7は、以下ステップを示すフローチャートである。すなわち、(700)
(i)音声を含むシーンのキャプチャされた空間オーディオコンテンツに基づき、当該音声はこれがキャプチャされた前記シーンの方向を少なくとも示す情報と対応付けられ、さらに
(ii)前記シーンの対応するキャプチャされた視覚的画像群に、ユーザに対する提示用にフォーカスが当てられた、前記シーンの第1の部分を少なくとも示す情報を含むビジュアルフォーカス情報に基づき、
(701)キャプチャされた視覚的画像群の提示を伴うように、前記キャプチャされた空間オーディオコンテンツの提示を行う。このキャプチャされた空間オーディオコンテンツは、前記ユーザに対して、当該キャプチャされた空間オーディオコンテンツに示された方向から発せられる音声の知覚を提供するように構成された空間オーディオとして提示され、前記空間オーディオコンテンツは、前記第1の部分とは異なる前記シーンの第2の部分からキャプチャされた音声に選択的に適用される空間オーディオフォーカスを有して提示用に提供され、前記空間オーディオフォーカスは、前記シーンの他の場所からの音声に比べて、前記第2の部分に対応する方向を有する音声の可聴度を増加させる音声変更効果を含む。
[0093]
図8は、一例によるプログラムを提供するコンピュータ/プロセッサ可読媒体800を概略的に示す。この例では、コンピュータ/プロセッサ可読媒体は、デジタル多用途ディスク(Digital Versatile Disc:DVD)またはコンパクトディスク(Compact Disc:CD)等のディスクである。一部の例では、コンピュータ可読媒体は、発明の機能を実行するような形でプログラムされた任意の媒体であってもよい。コンピュータプログラムコードは、同じタイプの複数のメモリ間、またはROM、RAM、フラッシュ、ハードディスク、ソリッドステート等異なるタイプの複数のメモリ間に分散されてもよい。
[0094]
ユーザ入力は、タップ、スワイプ、スライド、押下、保持、回転ジェスチャ、デバイスのユーザインタフェース近くでの静止ホバージェスチャ、デバイス近くでの移動ホバージェスチャ、デバイスの少なくとも一部を曲げること、デバイスの少なくとも一部を握りしめること、多指ジェスチャ、デバイスを傾けること、または制御デバイスを裏返すことの内の1つ以上を含むジェスチャであってもよい。さらにジェスチャは、ユーザの腕等のユーザの身体、またはスタイラスもしくは自由空間ユーザジェスチャを実行するの適した他の要素を使用した任意の自由空間ユーザジェスチャであってもよい。
[0095]
上記の例で示された装置は、携帯可能な電子デバイス、ラップトップコンピュータ、携帯電話、スマートフォン、タブレットコンピュータ、携帯情報端末、デジタルカメラ、スマートウォッチ、スマートアイウェア、ペンベースのコンピュータ、携帯可能でない電子デバイス、デスクトップコンピュータ、モニタ、スマートTV、サーバ、ウェアラブル装置、仮想現実装置、またはそれらの内の1つ以上のモジュール/回路構成としてもよい。
[0096]
言及された任意の装置、および/または言及された所定の装置の他の特徴は、有効化、例えばスイッチをオンにされたとき等にのみ所望の動作を実行するよう構成されたものとなるように準備された装置により提供されてもよい。そのような事例では、非有効化時(例えばスイッチオフ状態)には必ずしもアクティブメモリに適切なソフトウェアをロードしていなくてもよく、有効化時(例えばオン状態)にのみ適切なソフトウェアをロードしてもよい。装置は、ハードウェア回路構成および/またはファームウェアを備えてもよい。装置は、メモリ上にロードされたソフトウェアを備えてもよい。そのようなソフトウェア/コンピュータプログラムは、同じメモリ/プロセッサ/機能ユニット上および/または1つ以上のメモリ/プロセッサ/機能ユニット上に記録されてもよい。
[0097]
一部の例において、言及された所定の装置は、所望の動作を実行するよう適切なソフトウェアを用いて事前にプログラムされてもよく、この適切なソフトウェアは、例えばそのソフトウェアおよびそれに関連する機能性をロック解除/有効化するため、「キー」をダウンロードするユーザが使用できるようにされてもよい。そのような例に関連する利点としては、デバイスにさらなる機能性が必要なときにデータをダウンロードする必要性が軽減されることを挙げることができ、これは、ユーザが有効化しないかもしれない機能性のためにそのような事前プログラムされたソフトウェアを記憶するのに十分な容量をデバイスが有することが分かっている例において有用な可能性がある。
[0098]
言及された任意の装置/回路構成/要素/プロセッサは、言及された機能に加えて他の機能も有してもよく、これらの機能は、同じ装置/回路構成/要素/プロセッサにより実行されてもよい。開示された1つ以上の態様は、関連するコンピュータプログラムおよび適切な保持体(例えばメモリ、信号)に記録されたコンピュータプログラム(ソース/トランスポートエンコードされてもよい)の電子的な配布を含んでもよい。
[0099]
記載された任意の「コンピュータ」は、同じ回路基板に、または回路基板の同じ領域/位置に、または同じデバイスに位置してもしなくてもよい、1つ以上の個々のプロセッサ/処理要素の集合を備えることができる。一部の例では、言及された任意のプロセッサの1つ以上が複数のデバイスにわたって分散されてもよい。同じまたは異なるプロセッサ/処理要素が、本願明細書に記載された1つ以上の機能を実行してもよい。
[0100]
「シグナリング」という用語は、送信および/または受信される一連の電気/光信号として送信される1つ以上の信号を指してもよい。一連の信号は、前記シグナリングを構成する、1、2、3、4またはそれ以上の個別の信号成分または別個の信号を備えてもよい。これらの個別の信号の一部または全部は、無線または有線通信により同時に、順次に、および/または互いに時間的に重なるように送信/受信されてもよい。
[0101]
言及された任意のコンピュータならびに/またはプロセッサおよびメモリ(例えばROM、CD−ROM等を含む)の任意の説明に関して、これらは、コンピュータプロセッサ、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、フィールドプログラマブルゲートアレイ(Field-Programmable Gate Array:FPGA)、および/または本発明の機能を実行するような形にプログラムされた他のハードウェアの構成要素を備えてもよい。
[0102]
出願人は、ここに、本願明細書に記載された個々の特徴それぞれを単独で開示し、さらにかかる特徴2つ以上の任意の組合せを開示する。この開示は、かかる特徴または特徴の組合せが本願明細書に開示された任意の問題を解決するかどうかにはかかわらず、当業者の一般知識を踏まえて、かかる特徴または組合せが本明細書に基づき全体として実行可能となる程度まで行われており、クレームの範囲を限定しない。出願人は、開示された態様/例がそのような任意の個々の特徴からなっても、または特徴の組合せからなってもよいことを指摘する。当業者には当然のことながら、上記の説明に鑑みて、本開示の範囲内で様々な変更が加えられ得る。
[0103]
基本となる新規な特徴が、その例に適用されて示され、記載され、指摘されたが、当然のことながら、記載されたデバイスおよび方法の形態および詳細について様々な省略および置換および変更が、本開示の範囲から逸脱することなく、当業者によって行われることが可能である。例えば、同じ結果を達成するために実質的に同じ機能を実質的に同じ形で実行する当該要素および/または方法ステップの全ての組合せが、本開示の範囲内であることが明示的に意図される。さらに、当然のことながら、開示された任意の形態または例に関連して示されかつ/または記載された構造および/または要素および/または方法ステップは、一般的な設計上の選択事項として、他の任意の開示または記載または示唆された形態または例に組み込まれてもよい。さらに、特許請求の範囲では、ミーンズ・プラス・ファンクション節は、列挙された機能を実行するものとして本願明細書に記載された構造、さらに構造上の等価物のみならず、等価な構造も対象とすることを意図される。要するに、釘とねじとは、木製部品を留めるという状況において、釘が円柱状の表面を用いて木製部品同士を固定するのに対し、ねじはらせん状の表面を用いるという点で構造上の等価物ではないかもしれないが、釘とねじとは等価な構造体ではあり得る。

Claims

[1]
(i)音声を含むシーンのキャプチャされた空間オーディオコンテンツに基づき、当該音声はこれがキャプチャされた前記シーンの方向を少なくとも示す情報と対応付けられ、さらに
(ii)前記シーンの対応するキャプチャされた視覚的画像群に、ユーザに対する提示用にフォーカスが当てられた、前記シーンの第1の部分を少なくとも示す情報を含むビジュアルフォーカス情報に基づき、
前記キャプチャされた視覚的画像群の提示を伴うように、前記キャプチャされた空間オーディオコンテンツの提示を行うように構成される手段 を備えた装置であって、
このキャプチャされた空間オーディオコンテンツは、前記ユーザに対して、当該キャプチャされた空間オーディオコンテンツに示された方向から発せられる音声の知覚を提供するように構成された空間オーディオとして提示され、前記空間オーディオコンテンツは、前記第1の部分とは異なる前記シーンの第2の部分からキャプチャされた音声に選択的に適用される空間オーディオフォーカスを有して提示用に提供され、前記空間オーディオフォーカスは、前記シーンの他の場所からの音声に比べて、前記第2の部分に対応する方向を有する音声の可聴度を増加させる音声変更効果を含む、
装置。
[2]
前記第2の部分は、前記キャプチャされた視覚的画像群および前記キャプチャされた空間オーディオコンテンツが提示されることが意図されるユーザに特有のオーディオフォーカス情報に基づいて前記装置によって選択され、前記装置は、
a)前記ユーザからの、前記シーンの少なくとも1つの部分に対するユーザの選択と、
b1)前記ユーザが好む音声または音源の1つ以上を示すユーザ設定のプロファイル設定と、
b2)前記ユーザに対応付けられ、前記キャプチャされた空間オーディオコンテンツに聴覚的に存在し、またはキャプチャされたビジュアルコンテンツに視覚的に現れ、さらに、前記ユーザに事前に提示され、前記ユーザによって選択されたキャプチャされた別の視聴覚コンテンツにある共通の特徴に対する、前記ユーザによる1つ以上のユーザの選択を示す履歴データと、
c)前記ユーザに対応付けられ、前記キャプチャされた空間オーディオコンテンツに聴覚的に存在し、または前記キャプチャされたビジュアルコンテンツに視覚的に現れ、さらに、前記シーンのある決定された場所に対応する場所にいる前記ユーザに事前に提示されたキャプチャされた別の視聴覚コンテンツにある共通の特徴を示す履歴場所データと、
d)前記キャプチャされた空間オーディオコンテンツと、最近の時間または対応する時刻または時期を含む関連する時間にキャプチャされた、別の視聴覚コンテンツに共通の音声を示す履歴データを含む時間に特有のデータと、
の内の少なくとも1つに基づいて前記オーディオフォーカス情報を決定するように構成される手段を備える、請求項1に記載の装置。
[3]
前記シーンの前記第1の部分は、
a)現在提示されている前記キャプチャされたビジュアルコンテンツの空間的広がり全体と、
b)現在提示されている前記キャプチャされたビジュアルコンテンツの空間的広がり全体の小区分と、
c)現在提示されており、前記ユーザによって選択された、前記キャプチャされたビジュアルコンテンツの一部と、
の内の少なくとも1つを含む、請求項1または2に記載の装置。
[4]
前記キャプチャされたビジュアルコンテンツおよびキャプチャされた空間オーディオコンテンツは、ライブで提示され、選択的に適用された前記空間オーディオフォーカスを有する提示用の前記キャプチャされた空間オーディオコンテンツの提示は、前記キャプチャされた空間オーディオコンテンツをキャプチャするコンテンツキャプチャデバイスに対するフィードバックシグナリングの送信を行い、前記フィードバックシグナリングは、前記コンテンツキャプチャデバイスによる前記音声変更効果の適用を行うように構成される、請求項1から3のいずれかに記載の装置。
[5]
前記キャプチャされたビジュアルコンテンツおよびキャプチャされた空間オーディオコンテンツは事前に記録されたキャプチャされたコンテンツであり、前記キャプチャされたビジュアルコンテンツは、前記ビジュアルフォーカス情報に応じて、視覚的画像群の被写界深度の位置および深さの一方または両方に関して、光学的フォーカスを変更できるような光学的に再フォーカス可能なフォーマットでキャプチャされる、請求項1から3のいずれかに記載の装置。
[6]
前記シーンの前記キャプチャされた視覚的画像群に基づいて、前記ユーザに対する提示用にフォーカスが当てられた前記ビジュアルフォーカス情報に定義された前記シーンの前記第1の部分を有する前記キャプチャされた視覚的画像群の提示を行うように構成される、請求項1から5のいずれかに記載の装置。
[7]
前記シーンの前記キャプチャされた視覚的画像群は、
a)当該シーンの静止画像と、
b)当該シーンのビデオ画像群と、
c)任意の時点で前記ユーザに提示可能な空間的広がりよりも大きな空間的広がりを有する、当該シーンの仮想現実画像群と、
の1つを含む、請求項1から6のいずれかに記載の装置。
[8]
(i)ユーザへの提示用に提供された前記キャプチャされた視覚的画像群にフォーカスが当てられるべき、前記シーンの少なくとも第3の部分を定義するための、前記ビジュアルフォーカス情報における変更に基づき、さらに
(ii)前記キャプチャされた視覚的画像群の提示を伴うために、前記キャプチャされた空間オーディオコンテンツの進行中の提示に基づき、
前記第2の部分とは異なる、前記シーンの第4の部分からキャプチャされた音声に選択的に適用された空間オーディオフォーカスにおける変更を行うように構成される手段を有する、請求項4または5に記載の装置。
[9]
(i)前記シーン内の音源の変化および前記シーン内の音源の位置の変化の一方または両方を示す前記キャプチャされた空間オーディオコンテンツの分析に基づき、さらに
(ii)前記キャプチャされた視覚的画像群の提示を伴うために、前記キャプチャされた空間オーディオコンテンツの進行中の提示に基づき、
前記第1の部分および前記第2の部分とは異なる、前記シーンの第4の部分からキャプチャされた音声に対して選択的に適用された前記空間オーディオフォーカスにおける変更を行うように構成される手段を有する、請求項4または5に記載の装置。
[10]
前記キャプチャされたビジュアルコンテンツおよびキャプチャされた空間オーディオコンテンツはライブで提示され、前記装置は、キャプチャされた時点の前記キャプチャされた空間オーディオコンテンツのコンピュータにより実施された分析に基づいて、前記シーンの1つ以上の候補となる第2の部分を決定するように構成される手段を備え、前記装置は、前記空間オーディオフォーカスの適用のための前記候補となる第2の部分の1つ以上を選択するように構成される、請求項4に記載の装置。
[11]
前記キャプチャされたビジュアルコンテンツおよび前記キャプチャされた空間オーディオコンテンツは事前に記録されたコンテンツであり、前記装置は、少なくとも部分的に、提示用の前記キャプチャされた空間オーディオコンテンツの提供に先行する、前記キャプチャされた空間オーディオコンテンツのコンピュータにより実施された分析に基づいて、前記シーンの1つ以上の候補となる第2の部分を決定するように構成される手段を備え、前記装置は、前記空間オーディオフォーカスの適用のための前記候補となる第2の部分の1つ以上を選択するように構成される、請求項5に記載の装置。
[12]
空間オーディオフォーカスが設けられた音声は、ユーザが選択可能なリンクと共にさらに提示され、
前記装置は、前記リンクのユーザ選択によって、キャプチャされた別の視覚的画像群と、対応するキャプチャされた視覚的画像群の提示を行うように構成される手段を有し、
当該キャプチャされた別の視覚的画像群および対応するキャプチャされた視覚的画像群は、(i)前記空間オーディオフォーカスが設けられた音声と比較した聴覚的分析に基づいて、聴覚的に類似していると判定されたキャプチャされた空間オーディオコンテンツと、(ii)前記空間オーディオフォーカスが設けられた音声の決定された音源に関連する音源の画像群を含むと判断されたキャプチャされた視覚的画像群の内の1つ以上を有する、請求項1から11のいずれかに記載の装置。
[13]
前記オーディオフォーカス情報は、前記ユーザに提示された空間オーディオコンテンツの複数の事例に基づくニューラルネットワークを使用して決定される、請求項2に記載の装置。
[14]
(i)音声を含むシーンのキャプチャされた空間オーディオコンテンツに基づき、当該音声はこれがキャプチャされた前記シーンの方向を少なくとも示す情報と対応付けられ、さらに
(ii)前記シーンの対応するキャプチャされた視覚的画像群に、ユーザに対する提示用にフォーカスが当てられた、前記シーンの第1の部分を少なくとも示す情報を含むビジュアルフォーカス情報に基づき、
前記キャプチャされた視覚的画像群の提示を伴うように、前記キャプチャされた空間オーディオコンテンツの提示を行うことを含む方法であって、
このキャプチャされた空間オーディオコンテンツは、前記ユーザに対して、当該キャプチャされた空間オーディオコンテンツに示された方向から発せられる音声の知覚を提供するように構成された空間オーディオとして提示され、前記空間オーディオコンテンツは、前記第1の部分とは異なる前記シーンの第2の部分からキャプチャされた音声に選択的に適用される空間オーディオフォーカスを有して提示用に提供され、前記空間オーディオフォーカスは、前記シーンの他の場所からの音声に比べて、前記第2の部分に対応する方向を有する音声の可聴度を増加させる音声変更効果を含む、
方法。
[15]
装置の少なくとも一つのプロセッサで実行されると、前記装置に、
(i)音声を含むシーンのキャプチャされた空間オーディオコンテンツに基づき、当該音声はこれがキャプチャされた前記シーンの方向を少なくとも示す情報と対応付けられ、さらに
(ii)前記シーンの対応するキャプチャされた視覚的画像群に、ユーザに対する提示用にフォーカスが当てられた、前記シーンの第1の部分を少なくとも示す情報を含むビジュアルフォーカス情報に基づき、
前記キャプチャされた視覚的画像群の提示を伴うように、前記キャプチャされた空間オーディオコンテンツの提示を行うことを含む方法を遂行させるように構成されるプログラム命令を含むコンピュータプログラムであって、
このキャプチャされた空間オーディオコンテンツは、前記ユーザに対して、当該キャプチャされた空間オーディオコンテンツに示された方向から発せられる音声の知覚を提供するように構成された空間オーディオとして提示され、前記空間オーディオコンテンツは、前記第1の部分とは異なる前記シーンの第2の部分からキャプチャされた音声に選択的に適用される空間オーディオフォーカスを有して提示用に提供され、前記空間オーディオフォーカスは、前記シーンの他の場所からの音声に比べて、前記第2の部分に対応する方向を有する音声の可聴度を増加させる音声変更効果を含む、
コンピュータプログラム。

Drawings

[ Fig. 1]

[ Fig. 2]

[ Fig. 3]

[ Fig. 4]

[ Fig. 5]

[ Fig. 6]

[ Fig. 7]

[ Fig. 8]