Traitement en cours

Veuillez attendre...

Paramétrages

Paramétrages

Aller à Demande

1. WO2020155750 - PROCÉDÉ, APPAREIL ET DISPOSITIF DE COLLECTE DE CORPUS BASÉS SUR L'INTELLIGENCE ARTIFICIELLE, ET SUPPORT DE STOCKAGE

Numéro de publication WO/2020/155750
Date de publication 06.08.2020
N° de la demande internationale PCT/CN2019/117261
Date du dépôt international 11.11.2019
CIB
G06F 16/783 2019.1
GPHYSIQUE
06CALCUL; COMPTAGE
FTRAITEMENT ÉLECTRIQUE DE DONNÉES NUMÉRIQUES
16Recherche d’informations; Structures de bases de données à cet effet; Structures de systèmes de fichiers à cet effet
70de données vidéo
78Recherche de données caractérisée par l’utilisation de métadonnées, p.ex. de métadonnées ne provenant pas du contenu ou de métadonnées générées manuellement
783utilisant des métadonnées provenant automatiquement du contenu
CPC
H04N 21/433
HELECTRICITY
04ELECTRIC COMMUNICATION TECHNIQUE
NPICTORIAL COMMUNICATION, e.g. TELEVISION
21Selective content distribution, e.g. interactive television or video on demand [VOD]
40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
433Content storage operation, e.g. storage operation in response to a pause request, caching operations
H04N 21/435
HELECTRICITY
04ELECTRIC COMMUNICATION TECHNIQUE
NPICTORIAL COMMUNICATION, e.g. TELEVISION
21Selective content distribution, e.g. interactive television or video on demand [VOD]
40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
H04N 21/4394
HELECTRICITY
04ELECTRIC COMMUNICATION TECHNIQUE
NPICTORIAL COMMUNICATION, e.g. TELEVISION
21Selective content distribution, e.g. interactive television or video on demand [VOD]
40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
439Processing of audio elementary streams
4394involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
H04N 21/44008
HELECTRICITY
04ELECTRIC COMMUNICATION TECHNIQUE
NPICTORIAL COMMUNICATION, e.g. TELEVISION
21Selective content distribution, e.g. interactive television or video on demand [VOD]
40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
44008involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
H04N 21/4884
HELECTRICITY
04ELECTRIC COMMUNICATION TECHNIQUE
NPICTORIAL COMMUNICATION, e.g. TELEVISION
21Selective content distribution, e.g. interactive television or video on demand [VOD]
40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
47End-user applications
488Data services, e.g. news ticker
4884for displaying subtitles
H04N 21/8456
HELECTRICITY
04ELECTRIC COMMUNICATION TECHNIQUE
NPICTORIAL COMMUNICATION, e.g. TELEVISION
21Selective content distribution, e.g. interactive television or video on demand [VOD]
80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
83Generation or processing of protective or descriptive data associated with content; Content structuring
845Structuring of content, e.g. decomposing content into time segments
8456by decomposing the content in the time domain, e.g. in time segments
Déposants
  • 平安科技(深圳)有限公司 PING AN TECHNOLOGY (SHENZHEN) CO., LTD. [CN]/[CN]
Inventeurs
  • 杨雨晨 YANG, Yvchen
Mandataires
  • 深圳市世联合知识产权代理有限公司 SL INTELLECTUAL PROPERTY CO., LTD.
Données relatives à la priorité
201910081793.728.01.2019CN
Langue de publication chinois (ZH)
Langue de dépôt chinois (ZH)
États désignés
Titre
(EN) ARTIFICIAL INTELLIGENCE-BASED CORPUS COLLECTING METHOD, APPARATUS, DEVICE, AND STORAGE MEDIUM
(FR) PROCÉDÉ, APPAREIL ET DISPOSITIF DE COLLECTE DE CORPUS BASÉS SUR L'INTELLIGENCE ARTIFICIELLE, ET SUPPORT DE STOCKAGE
(ZH) 基于人工智能的语料收集方法、装置、设备及存储介质
Abrégé
(EN)
An artificial intelligence-based corpus collecting method, apparatus, and device, and a storage medium, related to the technical field of natural language processing. The method comprises: acquiring configuration item information inputted by a user (S101); downloading from a video website video data of a target video produced by searching for a target video keyword, the video data comprising a video file and an SRT subtitle file (S102); separating an audio file from the video file, splitting a subtitle text content parsed from the SRT subtitle file into subtitle blocks (S103); segmenting the audio file on the basis of a segment time of each subtitle block to acquire segmented audios (S104); establishing associations between the segmented audios and the subtitle blocks (S105); sorting and screening the associated segmented audios and subtitle blocks according to a preset screening keyword and then jointly storing as a target corpus (S106). The method implements the goal of automatically and quickly collecting a corpus satisfying requirements of a certain type of scenarios and is highly efficient and inexpensive.
(FR)
La présente invention concerne un procédé, un appareil et un dispositif de collecte de corpus basés sur l'intelligence artificielle, et un support de stockage, relevant du domaine technique du traitement du langage naturel. Le procédé consiste : à acquérir des informations d'élément de configuration entrées par un utilisateur (S101) ; à télécharger à partir d'un site web vidéo des données vidéo d'une vidéo cible produite par recherche d'un mot-clé vidéo cible, les données vidéo comprenant un fichier vidéo et un fichier de sous-titres SRT (S102) ; à séparer un fichier audio du fichier vidéo, à diviser un contenu de texte de sous-titres analysé à partir du fichier de sous-titres SRT en blocs de sous-titres (S103) ; à segmenter le fichier audio sur la base d'un temps de segment de chaque bloc de sous-titres pour acquérir des audios segmentés (S104) ; à établir des associations entre les audios segmentés et les blocs de sous-titres (S105) ; à trier et à filtrer les audios et blocs de sous-titres segmentés associés selon un mot-clé de filtrage prédéfini puis à les stocker conjointement en tant que corpus cible (S106). Le procédé met en œuvre l'objectif de collecter automatiquement et rapidement un corpus satisfaisant aux exigences d'un certain type de scénarios et est très efficace et peu coûteux.
(ZH)
一种基于人工智能的语料收集方法、装置、设备及存储介质,属于自然语言处理技术领域。该方法包括获取用户输入的配置项信息(S101);从视频网站下载通过检索所述目标视频关键字得到的目标视频的视频数据,视频数据包括视频文件和SRT字幕文件(S102);从视频文件中分离出音频文件,并将SRT字幕文件解析出来的字幕文本内容拆分成字幕块(S103);根据每个字幕块的分段时间切分音频文件,获得分段音频(S104);建立分段音频和字幕块之间的关联(S105);对关联后的分段音频和字幕块按照预设筛选关键词进行分类筛选后一起存储为目标语料(S106)。该方法能够实现自动快速收集到符合某一类场景需要的语料的目的,效率高而且成本低。
Également publié en tant que
Dernières données bibliographiques dont dispose le Bureau international