Traitement en cours

Veuillez attendre...

Paramétrages

Paramétrages

Aller à Demande

1. CN110008378 - Corpus collection method and device based on artificial intelligence, equipment and storage medium

Office
Chine
Numéro de la demande 201910081793.7
Date de la demande 28.01.2019
Numéro de publication 110008378
Date de publication 12.07.2019
Type de publication A
CIB
G06F 16/783
GPHYSIQUE
06CALCUL; COMPTAGE
FTRAITEMENT ÉLECTRIQUE DE DONNÉES NUMÉRIQUES
16Recherche d’informations; Structures de bases de données à cet effet; Structures de systèmes de fichiers à cet effet
70de données vidéo
78Recherche de données caractérisée par l’utilisation de métadonnées, p.ex. de métadonnées ne provenant pas du contenu ou de métadonnées générées manuellement
783utilisant des métadonnées provenant automatiquement du contenu
G06F 16/75
GPHYSIQUE
06CALCUL; COMPTAGE
FTRAITEMENT ÉLECTRIQUE DE DONNÉES NUMÉRIQUES
16Recherche d’informations; Structures de bases de données à cet effet; Structures de systèmes de fichiers à cet effet
70de données vidéo
75Groupement; Classement
G06F 16/71
GPHYSIQUE
06CALCUL; COMPTAGE
FTRAITEMENT ÉLECTRIQUE DE DONNÉES NUMÉRIQUES
16Recherche d’informations; Structures de bases de données à cet effet; Structures de systèmes de fichiers à cet effet
70de données vidéo
71Indexation; Structures de données à cet effet; Structures de stockage
H04N 21/433
HÉLECTRICITÉ
04TECHNIQUE DE LA COMMUNICATION ÉLECTRIQUE
NTRANSMISSION D'IMAGES, p.ex. TÉLÉVISION
21Distribution sélective de contenu, p.ex. télévision interactive ou vidéo à la demande
40Dispositifs clients spécialement adaptés à la réception de contenu ou à l'interaction avec le contenu, p.ex. boîtier décodeur ; Leurs opérations
43Traitement de contenu ou données additionnelles, p.ex. démultiplexage de données additionnelles d'un flux vidéo numérique; Opérations élémentaires de client, p.ex. surveillance du réseau domestique ou synchronisation de l'horloge du décodeur; Intergiciel de client
433Opération de stockage de contenu, p.ex. opération de stockage en réponse à une requête de pause ou opérations de cache
H04N 21/435
HÉLECTRICITÉ
04TECHNIQUE DE LA COMMUNICATION ÉLECTRIQUE
NTRANSMISSION D'IMAGES, p.ex. TÉLÉVISION
21Distribution sélective de contenu, p.ex. télévision interactive ou vidéo à la demande
40Dispositifs clients spécialement adaptés à la réception de contenu ou à l'interaction avec le contenu, p.ex. boîtier décodeur ; Leurs opérations
43Traitement de contenu ou données additionnelles, p.ex. démultiplexage de données additionnelles d'un flux vidéo numérique; Opérations élémentaires de client, p.ex. surveillance du réseau domestique ou synchronisation de l'horloge du décodeur; Intergiciel de client
435Traitement de données additionnelles, p.ex. décryptage de données additionnelles ou reconstruction de logiciel à partir de modules extraits du flux de transport
H04N 21/439
HÉLECTRICITÉ
04TECHNIQUE DE LA COMMUNICATION ÉLECTRIQUE
NTRANSMISSION D'IMAGES, p.ex. TÉLÉVISION
21Distribution sélective de contenu, p.ex. télévision interactive ou vidéo à la demande
40Dispositifs clients spécialement adaptés à la réception de contenu ou à l'interaction avec le contenu, p.ex. boîtier décodeur ; Leurs opérations
43Traitement de contenu ou données additionnelles, p.ex. démultiplexage de données additionnelles d'un flux vidéo numérique; Opérations élémentaires de client, p.ex. surveillance du réseau domestique ou synchronisation de l'horloge du décodeur; Intergiciel de client
439Traitement de flux audio élémentaires
CPC
H04N 21/433
HELECTRICITY
04ELECTRIC COMMUNICATION TECHNIQUE
NPICTORIAL COMMUNICATION, e.g. TELEVISION
21Selective content distribution, e.g. interactive television or video on demand [VOD]
40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
433Content storage operation, e.g. storage operation in response to a pause request, caching operations
H04N 21/435
HELECTRICITY
04ELECTRIC COMMUNICATION TECHNIQUE
NPICTORIAL COMMUNICATION, e.g. TELEVISION
21Selective content distribution, e.g. interactive television or video on demand [VOD]
40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
H04N 21/4394
HELECTRICITY
04ELECTRIC COMMUNICATION TECHNIQUE
NPICTORIAL COMMUNICATION, e.g. TELEVISION
21Selective content distribution, e.g. interactive television or video on demand [VOD]
40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
439Processing of audio elementary streams
4394involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
H04N 21/44008
HELECTRICITY
04ELECTRIC COMMUNICATION TECHNIQUE
NPICTORIAL COMMUNICATION, e.g. TELEVISION
21Selective content distribution, e.g. interactive television or video on demand [VOD]
40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
44008involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
H04N 21/4884
HELECTRICITY
04ELECTRIC COMMUNICATION TECHNIQUE
NPICTORIAL COMMUNICATION, e.g. TELEVISION
21Selective content distribution, e.g. interactive television or video on demand [VOD]
40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
47End-user applications
488Data services, e.g. news ticker
4884for displaying subtitles
H04N 21/8456
HELECTRICITY
04ELECTRIC COMMUNICATION TECHNIQUE
NPICTORIAL COMMUNICATION, e.g. TELEVISION
21Selective content distribution, e.g. interactive television or video on demand [VOD]
80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
83Generation or processing of protective or descriptive data associated with content; Content structuring
845Structuring of content, e.g. decomposing content into time segments
8456by decomposing the content in the time domain, e.g. in time segments
Déposants PING AN TECHNOLOGY (SHENZHEN) CO., LTD.
平安科技(深圳)有限公司
Inventeurs YANG YUCHEN
杨雨晨
Mandataires 深圳市世联合知识产权代理有限公司 44385
Titre
(EN) Corpus collection method and device based on artificial intelligence, equipment and storage medium
(ZH) 基于人工智能的语料收集方法、装置、设备及存储介质
Abrégé
(EN)
The invention belongs to the technical field of natural language processing, and relates to a corpus collection method and device based on artificial intelligence, equipment and a storage medium. Themethod comprises the steps of obtaining configuration item information input by a user, wherein the configuration item information comprises a target video keyword and a video website; downloading video data of a target video obtained by retrieving the target video keyword from the video website, wherein the video data comprises a video file and an SRT subtitle file; separating an audio file fromthe video file, and splitting the subtitle text content analyzed from the SRT subtitle file into subtitle blocks; segmenting the audio file according to the segmentation time of each subtitle block toobtain a segmented audio; establishing a correlation between the segmented audio and the subtitle block; and classifying and screening the associated segmented audio and subtitle blocks according toa preset screening keyword, and storing the segmented audio and subtitle blocks together as a target corpus. According to the method, the purpose of automatically and rapidly collecting the corpora meeting the requirements of a certain type of scenes can be achieved, efficiency is high, and cost is low.

(ZH)
本申请属于自然语言处理技术领域,涉及基于人工智能的语料收集方法、装置、设备及存储介质。该方法包括获取用户输入的配置项信息,所述配置项信息包括目标视频关键字和视频网站;从所述视频网站下载通过检索所述目标视频关键字得到的目标视频的视频数据,所述视频数据包括视频文件和SRT字幕文件;从视频文件中分离出音频文件,并将SRT字幕文件解析出来的字幕文本内容拆分成字幕块;根据每个字幕块的分段时间切分音频文件,获得分段音频;建立分段音频和字幕块之间的关联;对关联后的分段音频和字幕块按照预设筛选关键词进行分类筛选后一起存储为目标语料。该方法能够实现自动快速收集到符合某一类场景需要的语料的目的,效率高而且成本低。

Related patent documents