Processing

Please wait...

Settings

Settings

1. WO2020000688 - FINANCIAL RISK VERIFICATION PROCESSING METHOD AND APPARATUS, COMPUTER DEVICE, AND STORAGE MEDIUM

Document

说明书

发明名称 0001   0002   0003   0004   0005   0006   0007   0008   0009   0010   0011   0012   0013   0014   0015   0016   0017   0018   0019   0020   0021   0022   0023   0024   0025   0026   0027   0028   0029   0030   0031   0032   0033   0034   0035   0036   0037   0038   0039   0040   0041   0042   0043   0044   0045   0046   0047   0048   0049   0050   0051   0052   0053   0054   0055   0056   0057   0058   0059   0060   0061   0062   0063   0064   0065   0066   0067   0068   0069   0070   0071   0072   0073   0074   0075   0076   0077   0078   0079   0080   0081   0082   0083   0084   0085   0086   0087   0088   0089   0090   0091   0092   0093   0094   0095   0096   0097   0098   0099   0100   0101   0102   0103   0104   0105   0106   0107   0108   0109   0110   0111   0112   0113   0114   0115   0116   0117   0118   0119   0120   0121   0122   0123   0124   0125   0126   0127   0128   0129   0130   0131   0132   0133   0134   0135   0136   0137   0138   0139   0140   0141   0142   0143   0144   0145   0146   0147   0148   0149   0150   0151   0152   0153   0154   0155   0156   0157   0158   0159   0160   0161   0162   0163   0164   0165   0166   0167   0168   0169   0170   0171   0172   0173   0174   0175   0176   0177  

权利要求书

1   2   3   4   5   6   7   8   9   10   11   12   13   14   15   16   17   18   19   20  

附图

1   2   3   4   5   6   7   8   9  

说明书

发明名称 : 财务风险验证处理方法、装置、计算机设备及存储介质

[0001]
本申请以2018年6月27日提交的申请号为201810675971.4,名称为“财务风险验证处理方法、装置、计算机设备及存储介质”的中国发明申请为基础,并要求其优先权。

技术领域

[0002]
本申请涉及数据处理领域,尤其涉及一种财务风险验证处理方法、装置、计算机设备及存储介质。

背景技术

[0003]
风险识别是指在工作之前对工作过程中以及工作结果可能出现的事物异常进行预测,以制订对策从而预防事故发生的一种措施。财务单据数据是指与财务单据相关的数据,例如,与费用报销单、借款申请单、发票、出库单和入库单等财务单据相关的数据。在财务报销时,可能会存在假票据、多报销和填写字段错误等财务风险,当前主要通过人工查验财务单据数据的方式进行风险验证,其过程耗时长,且风险识别的效率较低。
[0004]
发明内容
[0005]
本申请实施例提供一种财务风险验证处理方法、装置、计算机设备及存储介质,以解决当前人工查验财务单据数据,以进行风险识别时存在的耗时长和效率低等问题。
[0006]
一种财务风险验证处理方法,包括:
[0007]
获取财务审批请求,所述财务审批请求包括财务单据数据;
[0008]
对所述财务单据数据进行特征提取,获取特征项数据;
[0009]
将所述特征项数据输入到基于决策树算法的目标风险识别模型进行风险识别,获取目标风险等级;
[0010]
根据所述目标风险等级对所述财务单据数据进行分类处理,将所述财务单据数据分配到与所述目标风险等级相对应的下级处理流程,以对所述财务单据数据进行相应的风险验证。
[0011]
一种财务风险验证处理装置,包括:
[0012]
财务审批请求获取模块,用于获取财务审批请求,所述财务审批请求包括财务单据数据;
[0013]
特征项数据提取模块,用于对所述财务单据数据进行特征提取,获取特征项数据;
[0014]
目标风险等级获取模块,用于将所述特征项数据输入到基于决策树算法的目标风险识别模型进行风险识别,获取目标风险等级;
[0015]
财务单据数据分配模块,用于根据所述目标风险等级对所述财务单据数据进行分类处理,将所述财务单据数据分配到与所述目标风险等级相对应的下级处理流程,以对所述财务单据数据进行相应的风险验证。
[0016]
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:
[0017]
获取财务审批请求,所述财务审批请求包括财务单据数据;
[0018]
对所述财务单据数据进行特征提取,获取特征项数据;
[0019]
将所述特征项数据输入到基于决策树算法的目标风险识别模型进行风险识别,获取目标风险等级;
[0020]
根据所述目标风险等级对所述财务单据数据进行分类处理,将所述财务单据数据分配到与所述目标风险等级相对应的下级处理流程,以对所述财务单据数据进行相应的风险验证。
[0021]
一个或多个存储有计算机可读指令的非易失性可读存储介质,计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如下步骤:
[0022]
获取财务审批请求,所述财务审批请求包括财务单据数据;
[0023]
对所述财务单据数据进行特征提取,获取特征项数据;
[0024]
将所述特征项数据输入到基于决策树算法的目标风险识别模型进行风险识别,获取目标风险等级;
[0025]
根据所述目标风险等级对所述财务单据数据进行分类处理,将所述财务单据数据分配到与所述目标风险等级相对应的下级处理流程,以对所述财务单据数据进行相应的风险验证。
[0026]
本申请的一个或多个实施例的细节在下面的附图及描述中提出。本申请的其他特征和优点将从说明书、附图以及权利要求书变得明显。

附图说明

[0027]
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0028]
图1是本申请一实施例中财务风险验证处理方法的应用环境示意图;
[0029]
图2是本申请一实施例中财务风险验证处理方法的流程图;
[0030]
图3是本申请一实施例中财务风险验证处理方法的另一流程图;
[0031]
图4是本申请一实施例中财务风险验证处理方法的另一流程图;
[0032]
图5是本申请一实施例中财务风险验证处理方法的另一流程图;
[0033]
图6是本申请一实施例中财务风险验证处理方法的另一流程图;
[0034]
图7是本申请一实施例中财务风险验证处理方法的另一流程图;
[0035]
图8是本申请一实施例中财务风险验证处理装置的示意图;
[0036]
图9是本申请一实施例中计算机设备的示意图。

具体实施方式

[0037]
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0038]
本申请实施例提供的财务风险验证处理方法,可应用在如图1的应用环境中,其中,客户端通过网络与服务器进行通信,用于对客户端上传给服务器的财务单据数据进行风险识别。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0039]
在一实施例中,如图2所示,提供一种财务风险验证处理方法,以该方法应用在图1中的服务器为例进行说明,该服务器具体为财务系统的服务器。该财务风险验证处理方法包括如下步骤:
[0040]
S10:获取财务审批请求,财务审批请求包括财务单据数据。
[0041]
其中,财务单据数据是指与财务单据相关的数据,例如,与费用报销单、借款申请单、发票、出库单和入库单等财务单据相关的数据。本实施例中,财务单据数据是需要导入财务系统进行风险验证的数据。该财务单据数据可以是外部业务系统直接推送给财务系统的单据数据,也可以是财务系统直接调用外部业务系统上传到共享数据库中的单据数据。该外部业务系统可以为报销系统。财务审批请求是用于触发财务系统对财务单据数据进行风险审批的请求。
[0042]
本实施例中,财务单据数据可以包括财务单据图像、与财务单据图像相对应的单据类型以及目标申报数据。其中,财务单据图像是指对财务单据进行拍摄或扫描所得的图像。与财务单据图像相对应的单据类型可以为费用报销单、借款申请单、发票、出库单和入库单等类型。目标申报数据是本次财务审批请求所要申报支出的数据,具体可以包括财务支出事由、财务支出金额和财务支出申报人。例如“用户A申请报销差旅费500元”这一目标申报数据中,差旅费为财务支出事由,500元为财务支出金额,用户A为财务支出申报人。
[0043]
具体地,用户可在财务系统的客户端填写目标申报数据(如用户A申请报销差旅费500元),然后点击“添加附件”按钮后上传财务单据图像,并选定该财务单据图像的单据类型,以完成财务单据数据的上传;然后,基于该财务单据数据触发财务审批请求,将该财务审批请求发送给财务系统的服务器,以使服务器对财务审批请求中的财务单据数据进行风险验证,以验证财务单据数据是否存在风险。例如,在财务系统的客户端的数据导入界面,用户上传财务单据数据后,可点击数据导入界面上的“审批”按钮,触发与该财务单据数据对应的财务审批请求,以使服务器获取该财务审批请求。
[0044]
S20:对财务单据数据进行特征提取,获取特征项数据。
[0045]
特征项数据是由财务单据数据提取出的具体特征项的数据。其中,特征项数据包括票据真伪特征、数据真伪特征、填写缺陷特征和信用等级特征。票据真伪特征是用于评估财务单据图像的真伪性的特征。数据真伪特征是对比目标申报数据和财务单据图像中提取出的图像内容后,得到的用于评估数据真伪性的特征。填写缺陷特征是用于评估本次财务审批请求中目标申报数据的填写是否规范的特征。其中,填写缺陷特征可以包括财务支出事由是否符合预先设置的可报销事由、财务支出金额的大小写是否填写规范等。信用等级特征是用于评估提起本次财务审批请求的用户的信用等级的特征。
[0046]
本实施例中,信用等级特征可由提起本次财务审批请求的用户的岗位确定。例如,在财务系统注册的任一用户A,其信用等级特征由用户A的岗位确定,若用户A为集团企业的财务人员,其信用等级特征为高;若用户A为集团企业中某一区域的财务人员,其信用等级特征为中;若用户A为集团企业任一区域下的子公司的财务人员,其信用等级特征为低。或者,信用等级特征可由提起本次财务审批请求的用户的历史申报记录确定,如根据用户B的历史申报记录中票据真伪特征、数据真伪特征和填写缺陷特征确定用户B的信用等级。
[0047]
S30:将特征项数据输入到基于决策树算法的目标风险识别模型进行风险识别,获取目标风险等级。
[0048]
其中,决策树算法是一种逼近离散函数值的方法,本质上决策树是通过一系列规则对数据进行分类的过程。基于决策树算法的目标风险识别模型是用于识别财务单据数据的风险等级的模型。该基于决策树算法的目标风险识别模型中,包括树状模型架构,该树状模型架构包括根节点、叶子节点、以及连接在根节点和叶子节点之间的中间节点,其中,每一中间节点与至少两个叶子节点相连。在该树状模型架构中,根节点和每一中间节点上均配置一目标分类特征,以便基于该目标分类特征将输入的特征项数据划分成至少两类。叶子节点是树状模型架构中不存在分支的节点,每一叶子节点配置有相应的风险等级。本实施例中,目标风险等级是将特征项数据输入到基于决策树算法的目标风险识别模型后,基于树状模型架构依序匹配目标分类特征后,确定最终叶子节点对应的风险模型。
[0049]
在步骤S30中,从树状模型架构的根节点开始,调用根节点的目标分类特征对特征项数据进行分类,确定其所属的中间节点或叶子节点;若为叶子节点,则直接将该叶子节点对应的风险等级确定为目标风险等级;若为中间节点,则调用该中间节点对应的目标分类特征对特征项数据进行进一步分类,确定其所属的下一级中间节点或叶子节点……以此类推,对每个中间节点调用与其对应的目标分类特征对特征项数据进行分类,直至确定该特征项数据对应的叶子节点,并将该叶子节点对应的风险等级确定为目标风险等级。本实施例中,采用基于决策树算法的目标风险识别模型对特征项数据进行风险识别的过程中,具备决策树算法所拥有的分类识别精度高且分类识别速度快的优点。
[0050]
S40:根据目标风险等级对财务单据数据进行分类处理,将财务单据数据分配到与目标风险等级相对应的下级处理流程,以对财务单据数据进行相应的风险验证。
[0051]
目标风险等级可以划分为高风险等级(以下简称高风险)和低风险等级(以下简称低风险)两种。下级处理流程是指依据该财务审批请求进行风险审批之后,对财务单据数据进行处理的下一个流程。
[0052]
服务器根据目标风险等级对财务单据数据进行分类处理,将财务单据数据分配到与目标风险等级相对应的下级处理流程,是指依据财务单据数据的目标风险等级是属于高风险等级还是低风险等级,将财务单据数据分配到不同的下级处理流程,以对财务单据数据进行相应的风险验证,即对高风险等级和低风险等级对应的财务单据数据进行分类处理,实现智能化审核财务单据数据,审核效率快且耗时少。
[0053]
本实施例所提供的财务风险验证处理方法中,采用基于决策树算法的目标风险识别模型对财务单据数据提取出的特征项数据进行识别,可快速获取准确率较高的目标风险等级;然后,依据目标风险等级的不同,将财务风险等级分配到与目标风险等级相对应的下级处理流程进行处理,以实现对财务单据数据进行分类处理和风险验证,可有效提高财务单据数据的审批效率,节省财务单据数据审批的工作量,并有助于减少人工审批的成本。
[0054]
在一实施例中,如图3所示,该财务风险验证处理方法还包括:
[0055]
S51:获取训练数据集,训练数据集包括至少两个训练单据数据,每一训练单据数据包括类别标签特征和至少两个训练属性特征。
[0056]
其中,训练数据集是训练单据数据的集合。训练单据数据是用于训练基于决策树算法的目标风险识 别模型所采用的单据数据。类别标签特征是预先给每一训练单据数据标注风险等级的特征。本实施例中,类别标签特征包括高风险和低风险两个。训练属性特征是用于限定训练单据数据中属于不同属性的特征。其中,训练属性特征包括票据真伪特征、数据真伪特征、信用等级特征和填写缺陷特征,即训练属性特征与步骤S20中提取出的特征项数据相对应。下面以表一所示的若干训练单据数据为例进行说明。
[0057]
表一 训练单据数据
[0058]
[表0001]
票据真伪特征 数据真伪特征 信用等级特征 填写缺陷特征 类别标签特征
假票据 真数据 高风险
假票据 假数据 高风险
真伪未定票据 真数据 低风险
真票据 真数据 低风险
真票据 真数据 低风险
真票据 假数据 高风险
真伪未定票据 假数据 高风险
假票据 真数据 高风险
假票据 真数据 高风险
真票据 假数据 高风险
假票据 假数据 高风险
真伪未定票据 真数据 高风险
真伪未定票据 真数据 低风险
真票据 假数据 低风险

[0059]
S52:对训练数据集中的类别标签特征和训练属性特征进行信息增益率计算,获取每一训练属性特征对应的信息增益率。
[0060]
其中,信息增益率计算是用于计算训练属性特征的信息增益率的过程。信息增益率是一种增益率,是一数学名词,具体为信息增益和分裂信息度的比值。其中,信息增益为信息不确定性减少的程度,信息增益偏向于取值较多的特征。分裂信息度为特征进行分裂时分支的数量。信息增益率是信息增益和分裂信息度的比值,以采用信息分裂度将信息增益规范化,使得基于信息增益率进行分类时准确率更高。本实施例中,服务器对训练数据集中的类别标签特征和训练属性特征进行信息增益率计算,以获取每一训练属性特征对应的信息增益率,以便采用该信息增益率作为模型训练的分类依据,可使其分类过程准确率较高,有助于提高训练好的模型的识别速率。
[0061]
S53:选取信息增益率最大的训练属性特征作为训练数据集的目标分类特征,采用目标分类特征将训练数据集划分为至少两个训练子集。
[0062]
其中,目标分类特征是对训练数据集进行划分的特征。本实施例中,选取信息增益率最大的训练属性特征作为该训练数据集的目标分类特征。训练子集是基于目标分类特征对训练数据集进行划分的集合。如表一中,若计算出信息增益率最大的训练属性特征为票据真伪特征,则该票据真伪特征为目标分类特征,依据该目标分类特征将训练数据集进行划分,以划分出真票据对应的训练子集、假票据对应的训练子集和真伪未定票据对应的训练子集。
[0063]
S54:判断每一训练子集是否为单元素数据集。
[0064]
单元素数据集是指只包含一个元素的数据集。单元素数据集具体为仅包含一个训练单据数据的数据集,即数据集中没有包含两个或两个以上不同的训练单据数据。本实施例中,判断每一训练子集是否为单元素数据集,以便确定该训练子集能否进行进一步划分,即若训练子集为单元素数据集,则说明该训练子集无法进行进一步划分;若训练子集不为单元素数据集,则说明该训练子集可以进行进一步划分。
[0065]
S55:若所有训练子集均为单元素数据集,则获取基于决策树算法的目标风险识别模型。
[0066]
本实施例中,采用目标分类特征将训练数据集划分成至少两个训练子集之后,若所有训练子集均为单元素数据集,则说明至少两个训练子集均无法进一步划分,完成基于决策树算法的目标风险识别模型的训练过程。此时,训练子集对应于该目标风险识别模型的树状模型架构的叶子节点,而目标分类特征为该叶子节点的上一级中间节点或根节点的分类特征。可以理解地,在基于决策树算法的目标风险识别模型中,每一叶子节点的风险等级可由训练子集的训练单据数据的类别标签特征确定。如一训练子集 {A},A为训练子集中的训练单据数据,若A所携带的类别标签特征为高风险,则所确定的基于决策树算法的目标风险识别模型中,A所在训练子集对应的叶子节点的风险等级为高风险。
[0067]
S56:若任一训练子集不为单元素数据集,则将训练子集更新为训练数据集,重复执行对训练数据集中的类别标签特征和训练属性特征进行信息增益率计算,获取每一训练属性特征对应的信息增益率的步骤。
[0068]
本实施例中,采用目标分类特征将训练数据集划分成至少两个训练子集之后,若至少两个训练子集中的任一个训练子集不为单元素数据集,说明该训练子集可进行进一步划分,将不为单元素数据集的训练子集更新为训练数据集,重复执行步骤S52的步骤,直至所有训练子集均为单元素数据集,以完成基于决策树算法的目标风险识别模型的训练过程。如步骤S54所划分出的训练子集为{B,C},{D,E,F}和{G},由于{B,C}和{D,E,F}这两个训练子集不为单元素数据集,因此需要将{B,C}和{D,E,F}这两个训练子集更新为新的训练数据集,重复执行步骤S52的步骤,直至所有训练子集均为单元素数据集。
[0069]
步骤S51-S56中,选取训练数据集中的训练属性特征作为分类依据,通过计算每一训练属性特征的信息增益率;选取信息增益率最大的训练属性特征作为该训练数据集的目标分类特征,以利用该目标分类特征将训练数据集划分成至少两个训练子集;根据训练子集是否为单元素数据集确定是否需要进行进一步分类,直至所有训练子集均为单元素数据集时,完成基于决策树算法的目标风险识别模型的训练过程。本实施例所获取的目标风险识别模型的分类准确率较高,且分类规则明确,使得后续利用该风险识别模型进行识别时,识别效率较快。
[0070]
在一实施例中,如图4所示,步骤S52中的对训练数据集中的类别标签特征和训练属性特征进行信息增益率计算,获取每一训练属性特征对应的信息增益率,具体包括如下步骤:
[0071]
S521:采用类别信息熵公式对训练数据集中的类别标签特征进行计算,获取训练数据集的类别信息熵,类别信息熵公式为 其中,S为训练数据集,Entropy(S)为训练数据集S的类别信息熵,c为类别标签特征的值的数量,p i为第i个类别标签特征的概率。
[0072]
类别信息熵是所有样本中各种类别(高风险和低风险)出现的不确定性之和。类别信息熵越大,不确定性就越大。如表一所示,由于类别标签特征包括高风险和低风险两种,该类别标签特征的值的数量c为2。S为训练数据集,即训练单据数据所形成的集合。训练数据集S中第i个类别标签特征的概率为p i,是指第i个类别标签特征的数量与所有类别标签特征的数量之比值。本实施例中,训练数据集S中第i个类别标签特征的概率为p i分别为p 1和p 2,其中,p 1为高风险类别标签特征的概率,则 p 2为低风险类别标签特征的概率,则 表一中,依据类别信息熵公式计算出的训练数据集的类别信息熵为Entropy(S)=-9/14*log 2(9/14)-5/14*log 2(5/14)=0.940。
[0073]
S522:采用属性信息熵公式对每一训练属性特征进行计算,获取每一训练属性特征的属性信息熵,属性信息熵公式为 其中,Entropy(S,,A)为训练属性特征A在训练数据集S中的属性信息熵,v为训练属性特征A的分支,Entropy(S v)为分支v的分支信息熵,|S v|为分支v的数量,|S|为训练数据集S的数量。
[0074]
每一训练属性特征的属性信息熵是一种条件熵,是指在训练属性特征这一条件下,各种类别出现的 不确定性之和。如表一所示,训练属性特征A为票据真伪特征,该票据真伪特征包括真票据、假票据和真伪未定票据3个分支v,这3个分支v的数量分别为5、5和4,则真票据、假票据和真伪未定票据的概率分别为 本实施例中,5个真票据对应的训练单据数据属于高风险和低风险的概率分别为 5个假票据对应的训练单据数据属于高风险和低风险的概率分别为1和0,4个真伪未定票据对应的训练单据数据属于高风险和低风险的根据分别为 则票据真伪特征的属性信息熵为 同理,计算出数据真伪特征、信用等级特征和填写缺陷特征的属性信息熵。
[0075]
S523:采用信息增益公式对训练数据集的类别信息熵和每一训练属性特征的属性信息熵进行计算,获取每一训练属性特征的信息增益,信息增益公式为Gain(S,A)=Entropy(S)-Entropy(S,A),其中,Gain(S,A)为训练属性特征A在训练数据集S中的信息增益。
[0076]
信息增益表示信息不确定性减少的程度,若一个训练属性特征的信息增益越大,表示用这个属性进行样本划分时可以更好地减少划分后样本的不确定性,选择该训练属性特征就可以更快地完成分类目标。具体地,根据类别信息熵Entropy(S)和每一训练属性特征A的属性信息熵Entropy(S,A),采用Gain(S,A)=Entropy(S)-Entropy(S,A)计算该训练属性特征A的信息增益Gain(S,A)。例如,票据真伪特征的信息增益为Gain(S,A)=0.940-0.6325=0.3075。同理,计算出数据真伪特征、信用等级特征和填写缺陷特征的信息增益。
[0077]
S524:采用分裂信息度公式对每一训练属性特征进行计算,获取每一训练属性特征的分裂信息度,分裂信息度公式为 其中,m为训练属性特征A的值的数量,S j为m个值的训练属性特征A分割训练数据集S形成的第j个训练子集,|S j|为训练子集S j的数量,|S|为训练数据集S的数量。
[0078]
训练属性特征的分裂信息度是指该训练属性特征进行分裂时分支的数量信息和尺寸信息,这些信息为训练属性特征的内在信息(Split Information)。如表一所示,训练属性特征A为票据真伪特征,票据真伪特征包括真票据、假票据和真伪未定票据这3个值,则m为3;若依据票据真伪特征对训练数据集进行分类时,其真票据、假票据和真伪未定票据对应的训练单据数据分别对应一个训练子集,其训练子集的数量分别为5、5和4,则真票据、假票据和真伪未定票据的概率分别为 则根据票据真伪特征中每个特征的概率,采用分裂信息度公式进行计算,获取该票据真伪特征的分裂信息度为 同理,计算出数据真伪特征、信用等级特征和填写缺陷特征的分裂信息度。
[0079]
S525:采用信息增益率公式对每一训练属性特征的信息增益和分裂信息度进行计算,获取每一训 练属性特征的信息增益率,信息增益率公式为
[0080]
由于任一训练属性特征的信息增益率为该训练属性特征的信息增益与其分裂信息度的比值,使得信息增益率随着分裂信息度的增大而减少,可以理解为,若任一训练属性特征本身不确定性(即分裂信息度)就很大,越不倾向于选取该训练属性特征作为分类依据。例如,票据真伪特征的信息增益为 同理,计算出数据真伪特征、信用等级特征和填写缺陷特征的信息增益率。
[0081]
步骤S521-S525中,依次采用类别信息熵公式、属性信息熵公式、信息增益公式、分裂信息度公式和信息增益率公式对训练数据集中的类别标签特征和训练属性特征进行信息增益率计算,可快速准确地获取每一训练属性特征的信息增益率,以便基于该信息增益率对训练数据集进行分类,从而构建基于决策树算法的目标风险识别模型。
[0082]
在一实施例中,财务单据数据包括财务单据图像和与财务单据图像相对应的单据类型。财务单据图像是指对财务单据进行拍摄或扫描所得的图像。与财务单据图像相对应的单据类型可以为费用报销单、借款申请单、发票、出库单和入库单等财务单据。特征项数据包括票据真伪特征,票据真伪特征是用于评估财务单据图像的真伪性的特征。本实施例中,票据真伪特征包括真票据、假票据和真伪未定票据。其中,真票据是进行真伪验证后,确定其为真实的票据;假票据是进行真伪验证后,确定其虚假的票据;真伪未定票据是进行真伪验证后,无法确定其真伪的票据。
[0083]
如图5所示,步骤S20中的对财务单据数据进行特征提取,获取特征项数据,具体包括如下步骤:
[0084]
S21:若单据类型为发票类型,则采用发票OCR识别工具对财务单据图像进行发票真伪识别,确定财务单据图像的票据真伪特征为真票据或假票据。
[0085]
其中,发票OCR识别工具是专用于识别发票真伪的工具,该发票OCR识别工具内置在财务系统的服务器上,以使服务器调用该发票OCR识别工具对发票类型进行发票真伪识别。具体地,若与财务单据图像相对应的单据类型为发票类型,则在服务器上调用内置的发票OCR识别工具对该财务单据图像进行发票真伪识别,以确定该财务单据图像的票据真伪特征为真票据或假票据。
[0086]
具体地,服务器内置的发票OCR识别工具通过OCR(Optical Character Recognition,光学字符识别)技术对单据类型为发票类型的财务单据图像进行识别,获取财务单据图像中的发票代码、发票号码、开票日期和金额等发票信息,并将所获取的发票信息导入发票查验平台进行验证,获取发票查验平台反馈的验证结果,以确定该财务单据图像为真票据还是假票据。该发票查验平台具体可以是国家税务总局全国增值税发票查验平台,也可以是其他可实现发票查验的平台。采用服务器内置的发票OCR识别工具对单据类型为发票类型的财务单据图像进行快速真伪识别,以确定其财务单据图像的票据真伪特征为真票据还是假票据,以便后续基于该票据真伪特征确定本次财务审批请求的风险,实现风险预测目的。
[0087]
S22:若单据类型为非发票类型,则确定财务单据图像的票据真伪特征为真伪未定票据。
[0088]
其中,非发票类型是指除发票类型以外的所有单据类型,包括费用报销单、借款申请单、出库单和入库单等财务单据。由于非发票类型种类较多,而且当前没有专用的真伪识别工具对票据真伪性进行识别,因此,将单据类型为非发票类型的财务单据图像的票据真伪特征确定为真伪未定票据。
[0089]
步骤S21-S22中,在财务单据数据包括财务单据图像和与该财务单据图像相对应的单据类型时,若单据类型为发票类型,则采用发票OCR识别工具可快速确定该财务单据数据的票据真伪特征为真票据还是假票据;若单据类型为非发票类型,则直接确定该财务单据数据的票据真伪特征为真伪未定票据,以使根据所确定的票据真伪特征对财务单据数据的风险进行识别,以达到智能审核财务风险的目的。
[0090]
在一实施例中,财务单据数据还包括目标申报数据,该目标申报数据是本次财务审批请求所要申报支出的财务支出事由、财务支出金额和财务支出申报人。特征项数据包括数据真伪特征,该数据真伪特征是对比目标申报数据和财务单据图像中提取出的图像内容后,得到的用于评估数据真伪性的特征。
[0091]
如图5所示,步骤S20中的对财务单据数据进行特征提取,获取特征项数据,还包括如下步骤:
[0092]
S23:采用目标文本识别模型对财务单据图像进行文本识别,获取文本特征数据。
[0093]
目标文本识别模型是预先训练好的用于对图像进行文本识别的模型。文本特征数据是对财务单据图像进行文本识别后获取的特征数据。例如,发票类型的财务单据图像识别出的文本特征数据包括费用类型、单位、数量、单价、金额、税率和税额等与费用相关的数据,也包括购买方和销售方等与对象相关的数据,还包括票据编号、票据校验码和开票时间等与票据相关的数据。
[0094]
本实施例中,目标文本识别模型是采用长短时记忆神经网络(long-short term memory,简称LSTM)对图像训练的用于识别文本内容的模型。LSTM是一种时间递归神经网络,适合于处理和预测具有时间序列,且时间序列间隔和延迟相对较长的重要事件。具体地,服务器将财务单据图像输入到基于LSTM的目标文本识别模型中进行识别,使得基于LSTM的目标文本识别模型能够根据联系上下文对财务单据图像中的文字进行识别,获取文本特征数据。
[0095]
S24:采用关键词提取算法对文本特征数据进行关键词提取,获取文本特征关键词。
[0096]
关键词提取算法是从文本中提取出关键词的算法。文本特征关键词是采用关键词提取算法对文本特征项数据进行关键词提取后获得的关键词。由于本实施例中目标申报数据包括财务支出事由和财务支出金额等与费用相关的数据,也包括财务支出申报人这一与对象相关的数据,所以,在采用关键词提取算法对文本特征数据进行关键词提取时,需从文本特征数据中提取出与费用相关的数据和与对象相关的数据,作为文本特征关键词。
[0097]
S25:计算目标申报数据与文本特征关键词的目标匹配度,根据目标匹配度确定数据真伪特征。
[0098]
采用相似度算法计算目标申报数据与文本特征关键词的目标匹配度。该相似度算法可以为余弦相似度算法、编辑距离算法或者其他可计算文本相似度的算法。由于目标申报数据和文本特征关键词均包括与费用相关的数据和与对象相关的数据,则需分别计算目标申报数据和文本特征关键词中与费用相关的数据的第一目标匹配度和与对象相关的数据的第二目标匹配度,根据第一目标匹配度和第二目标匹配度确定该财务单据数据的数据真伪特征。其中,目标匹配度包括第一目标匹配度和第二目标匹配度。
[0099]
例如,“用户A申请报销差旅费500元”这一目标申报数据中,差旅费为财务支出事由,500元为财务支出金额,用户A为财务支出申报人。若文本特征关键词中包含“差旅费”和“500元”等与费用相关的数据,则认定目标申报数据和文本特征关键词的第一目标匹配度完全匹配;反之,若文本特征关键词中没有包含“差旅费”和“500元”等与费用相关的数据,则认定目标申报数据和文本特征关键词的第一目标匹配度不完全匹配。相应地,若文本特征关键词中的购买方为“用户A”,则认定目标申报数据和文本特征关键词的第二目标匹配度完全匹配;反之,则认定目标申报数据和文本特征关键词的第二目标匹配度不完全匹配。
[0100]
本实施例中,根据目标匹配度确定数据真伪特征,具体包括:若第一目标匹配度和第二目标匹配度均为完全匹配,则财务单据数据的数据真伪特征为真数据;若第一目标匹配度和第二目标匹配中的至少一个为不完全匹配,则财务单据数据的数据真伪特征为假数据。
[0101]
步骤S23-S25中,采用预先训练好的目标文本识别模型对财务单据图像进行识别,可实现快速智能获取文本特征数据,无需人工对财务单据图像中的文本特征数据进行校对;然后,采用关键词提取算法从文本特征数据中提取出文本特征关键词,利用该文本特征关键词与目标申报数据确定目标匹配度,从而根据目标匹配度确定数据真伪特征,从而实现智能审单的功能,无需人工校验财务单据图像与目标申报数据是否相匹配,以避免目标申报数据中存在数据作假的问题。
[0102]
在一实施例中,在对财务单据数据进行特征提取,获取特征项数据的步骤之前,该财务风险验证处理方法还包括预先训练基于长短时记忆神经网络的目标文本识别模型的步骤。如图6所示,该预先训练基于长短时记忆神经网络的目标文本识别模型,具体包括如下步骤:
[0103]
S61:获取训练文本图像,并将训练文本图像按预设比例划分成训练集和测试集。
[0104]
其中,训练文本图像是预先从开源库中获取的用于进行模型训练的文本图像,该文本图像中包含文本内容,该文本内容由手写字和非手写字等汉字组成。具体地,训练文本图像中可以包含手写字组成的文本内容,也可以包含非手写字组成的文本内容,或者包括手写字和非文本字组成的文本内容。该训练文本图像可以采用费用报销单、借款申请单、发票、出库单和入库单等财务单据的图像,以使得训练得 到的目标文本识别模型具有针对性,识别更准确。其中,训练集(training set)是学习样本数据集,是通过匹配一些参数来建立分类器,即采用训练集中的训练文本图像来训练机器学习模型,以确定机器学习模型的参数。测试集(test set)是用于测试训练好的机器学习模型的分辨能力,如准确率。预设比例是预先设置的用于对训练文本图像进行划分的比例。本实施例中,可按照9:1的比例对训练文本图像进行划分,即可将90%的训练文本图像作为训练集,剩余10%的训练文本图像作为测试集。
[0105]
S62:采用垂直投影法对训练文本图像进行单字体切割,获取训练单字体图像,并对训练单字体图像进行顺序标注,获取训练单字体样本。
[0106]
垂直投影法是指对训练文本图像进行垂直方向的投影,获取垂直投影直方图的方法,垂直投影直方图反映训练文本图像在垂直方向上的像素个数。
[0107]
具体地,采用垂直投影方法对训练文本图像进行单字体切割包括如下步骤:服务器对训练文本图像中的至少一行文本逐行进行扫描,获取每一文本对应的像素值,根据每一像素值对应的垂直投影直方图,获取不同像素值对应的像素数量,按照垂直投影直方图中的极小值,对训练文本图像进行循环切割,获取训练单字体图像。可以理解地,每一个汉字对应的像素值是比较集中的,汉字与汉字之间间隙对应的像素值是比较稀疏的,对应的像素值的密集程度反应在对应的垂直投影直方图中,则在垂直投影直方图中有汉字的像素值对应的像素数量比较高,没有汉字的像素值对应的像素数量比较低,通过垂直投影法能够有效对训练文本图像进行单字体切割,获取训练单字体图像,实现过程简单,有助于提高训练效率。
[0108]
其中,对训练单字体图像进行顺序标注是指对训练文本图像中每一行文本所切割出来的训练单字体图像,依据切割顺序从左往右进行标注,以使获取得到的训练单字体样本具备时序性。
[0109]
S63:将训练集中的训练单字体样本依据标注的顺序输入到长短时记忆神经网络中进行训练,采用批量梯度下降算法对长短时记忆神经网络的网络参数进行更新,获取原始文本识别模型。
[0110]
原始文本识别模型是经过长短时记忆神经网络多次迭代所得到的模型。长短时记忆神经(long-short term memory,简称LSTM)网络是一种时间递归神经网络,适合于处理和预测具有时间序列,且时间序列间隔和延迟相对较长的重要事件。
[0111]
批量梯度下降算法是每次在更新网络参数时,采用训练集中的所有训练单字体样本来进行更新,能够得到全局最优解,提高模型准确率。网络参数是长短时记忆神经网络的各层之间的权值和偏置。长短时记忆神经网络具有时间记忆功能,因而用来处理携带时序状态的训练单字体样本。
[0112]
长短时记忆神经网络具有一输入层、至少一个隐藏层和一输出层的网络结构。其中,输入层是长短时记忆神经网络的第一层,用于接收外界信号,即负责接收训练单字体样本。输出层是长短时记忆神经网络的最后一层,用于向外界输出信号,即负责输出长短时记忆神经网络的计算结果。隐藏层是长短时记忆神经网络中除输入层和输出层之外的各层,用于对训练单字体样本进行处理,获取长短时记忆神经网络的计算结果。可以理解地,由于训练单字体样本具备时序性,可采用长短时记忆神经网络根据上下文对训练单字体样本进行训练,从而提高所获取的原始文本识别模型的识别准确率。本实施例中,长短时记忆神经网络的输出层采用Softmax(回归模型)进行回归处理,用于分类输出权值矩阵。Softmax(回归模型)是一种常用于神经网络的分类函数,它将多个神经元的输出,映射到[0,1]区间内,可以理解成概率,计算起来简单方便,从而来进行多分类输出,使其输出结果更准确。
[0113]
S64:采用测试集中的训练单字体样本对原始文本识别模型进行测试,获取原始文本识别模型的识别准确率,在识别准确率大于预设准确率时,获取目标文本识别模型。
[0114]
其中,预设准确率是预先设置的准确率阈值,用于评估文本识别模型是否符合要求的阈值。具体地,将测试集中所有训练单字体样本输入原始文本识别模型进行测试,获取原始文本识别模型的识别准确率,该识别准确率为训练单字体样本预测结果准确的数量除以训练集中所有训练单字体样本的数量。其中,训练单字体样本预测结果准确是指训练单字体样本的预测结果与其标注相同。然后,再判断原始文本识别模型的识别准确率是否大于预设准确率,若识别准确率大于预设准确率,则认定该原始文本识别模型较准确,将该原始文本识别模型确定为目标文本识别模型;若识别准确率不大于预设准确率,则认定该原始文本识别模型不够准确,需重新训练并测试,直至识别准确率达到预设准确率,停止训练,以确保目标文本识别模型的识别准确率。
[0115]
本实施例中,采用财务单据图像作为训练文本图像,以训练目标文本识别模型,使得训练获得的目标文本识别模型具有针对性,识别准确率较高。然后,采用垂直投影法对训练文本图像进行切割,并对切割得到的训练单字体图像进行顺序标注,获取训练单字体样本,以使得训练单字体样本具有时序性。并将具有时序性的训练单字体样本输入长短时记忆神经网络进行训练,以使长短时记忆神经网络能够根据上下文对训练单字体样本进行训练,采用批量梯度下降算法对长短时记忆神经网络的网络参数进行更新,获取原始文本识别模型,提高模型准确率。采用测试集中的训练单字体样本对原始文本识别模型进行测试,在测试准确率大于预设准确率时,获取目标文本识别模型,进一步确保目标文本识别模型的识别准确率。
[0116]
在一实施例中,如图7所示,步骤S40中的根据目标风险等级对财务单据数据进行分类处理,将财务单据数据分配到与目标风险等级相对应的下级处理流程,具体包括如下步骤:
[0117]
S41:根据目标风险等级对财务单据数据进行分类,确定财务单据数据为待流转数据或待审批数据。
[0118]
具体地,目标风险等级可以划分为高风险等级和低风险等级在财务系统中,可预先设置高风险等级对应的财务单据数据需通过人工进一步审批,因此,可将高风险等级对应的财务单据数据确定为待审批数据;相应地,低风险等级对应的财务单据数据无需通过人工进行审批,可直接进行下一流转处理环节,因此,可将低风险等级对应的财务单据数据确定为待流转数据。
[0119]
S42:将待审批数据分配到与目标风险等级相对应的审批处理环节。
[0120]
在财务系统中预先配置审批分配表,该审批分配表用于存储不同风险等级对应的财务单据数据的审批人员信息。服务器在确定财务单据数据为待审批数据时,需依据目标风险等级查询该审批分配表,确定与该目标风险等级相对应的审批人员信息,并将财务单据数据发送给该审批人员信息对应的审批处理环节,以使相应的审批人员可以查看并审批该财务单据数据。
[0121]
S43:将待流转数据分配到流转处理环节。
[0122]
在财务系统中,待流转数据是低风险等级对应的财务单据数据,无需通过人工进行审批,因此服务器可将该待流转数据分配到流转处理环节,以实现对该财务单据数据进行进一步处理。该流转处理环节可以是财务付款或财务报批等环节,根据财务单据数据的类型不同,其对应的流转处理环节不同。
[0123]
本实施例中,将高风险等级对应的财务单据数据作为待审批数据分配与目标风险等级相对应的审批处理环节,以进一步审批该财务单据数据,有助于降低财务风险,提高审批处理环节的效率,并节省审批成本;并低风险等级对应的财务单据数据作为待流转数据直接分配到下一级的流转处理环节,有助于提高财务单据数据的流转效率。
[0124]
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
[0125]
在一实施例中,提供一种财务风险验证处理装置,该财务风险验证处理装置与上述实施例中财务风险验证处理方法一一对应。如图8所示,财务风险验证处理装置包括财务审批请求获取模块10、特征项数据提取模块20、目标风险等级获取模块30和财务单据数据分配模块40。各功能模块详细说明如下:
[0126]
财务审批请求获取模块10,用于获取财务审批请求,财务审批请求包括财务单据数据。
[0127]
特征项数据提取模块20,用于对财务单据数据进行特征提取,获取特征项数据。
[0128]
目标风险等级获取模块30,用于将特征项数据输入到基于决策树算法的目标风险识别模型进行风险识别,获取目标风险等级。
[0129]
财务单据数据分配模块40,用于根据目标风险等级对财务单据数据进行分类处理,将财务单据数据分配到与目标风险等级相对应的下级处理流程,以对财务单据数据进行相应的风险验证。
[0130]
具体地,财务风险验证处理装置还包括:
[0131]
训练数据集获取单元51,用于获取训练数据集,训练数据集包括至少两个训练单据数据,每一训练单据数据包括类别标签特征和至少两个训练属性特征。
[0132]
信息增益率获取单元52,用于对训练数据集中的类别标签特征和训练属性特征进行信息增益率计算,获取每一训练属性特征对应的信息增益率。
[0133]
目标分类特征获取单元53,用于选取信息增益率最大的训练属性特征作为训练数据集的目标分类 特征,采用目标分类特征将训练数据集划分为至少两个训练子集。
[0134]
单元素数据集判断单元54,用于判断每一训练子集是否为单元素数据集。
[0135]
风险识别模型获取单元55,用于若所有训练子集均为单元素数据集,则获取基于决策树算法的目标风险识别模型。
[0136]
训练数据集更新单元56,用于若任一训练子集不为单元素数据集,则将训练子集更新为训练数据集,重复执行对训练数据集中的类别标签特征和训练属性特征进行信息增益率计算,获取每一训练属性特征对应的信息增益率的步骤。
[0137]
具体地,信息增益率获取单元52包括类别信息熵计算子单元521、属性信息熵计算子单元522、信息增益计算子单元523、分裂信息度计算子单元524和信息增益率计算子单元525。
[0138]
类别信息熵计算子单元521,用于采用类别信息熵公式对训练数据集中的类别标签特征进行计算,获取训练数据集的类别信息熵,类别信息熵公式为 其中,S为训练数据集,Entropy(S)为训练数据集S的类别信息熵,c为类别标签特征的值的数量,p i为第i个类别标签特征的概率。
[0139]
属性信息熵计算子单元522,用于采用属性信息熵公式对每一训练属性特征进行计算,获取每一训练属性特征的属性信息熵,属性信息熵公式为 其中,Entropy(S,A)为训练属性特征A在训练数据集S中的属性信息熵,v为训练属性特征A的分支,Entropy(S v)为分支v的分支信息熵,|S v|为分支v的数量,|S|为训练数据集S的数量。
[0140]
信息增益计算子单元523,用于采用信息增益公式对训练数据集的类别信息熵和每一训练属性特征的属性信息熵进行计算,获取每一训练属性特征的信息增益,信息增益公式为Gain(S,A)=Entropy(S)-Entropy(S,A),其中,Gain(S,A)为训练属性特征A在训练数据集S中的信息增益。
[0141]
分裂信息度计算子单元524,用于采用分裂信息度公式对每一训练属性特征进行计算,获取每一训练属性特征的分裂信息度,分裂信息度公式为 其中,m为训练属性特征A的值的数量,S j为m个值的训练属性特征A分割训练数据集S形成的第j个训练子集,|S j|为训练子集S j的数量,|S|为训练数据集S的数量。
[0142]
信息增益率计算子单元525,用于采用信息增益率公式对每一训练属性特征的信息增益和分裂信息度进行计算,获取每一训练属性特征的信息增益率,信息增益率公式为
[0143]
具体地,特征项数据提取模块20包括:
[0144]
第一票据真伪确定单元21,用于若单据类型为发票类型,则采用发票OCR识别工具对财务单据图像进行发票真伪识别,确定财务单据图像的票据真伪特征为真票据或假票据。
[0145]
第二票据真伪确定单元22,用于若单据类型为非发票类型,则确定财务单据图像的票据真伪特征为真伪未定票据。
[0146]
具体地,特征项数据提取模块20还包括文本特征数据获取子单据23、文本特征关键词获取子单元24和数据真伪特征获取子单元25。
[0147]
文本特征数据获取子单据23,用于采用目标文本识别模型对财务单据图像进行文本识别,获取文本特征数据。
[0148]
文本特征关键词获取子单元24,用于采用关键词提取算法对文本特征数据进行关键词提取,获取文本特征关键词。
[0149]
数据真伪特征获取子单元25,用于计算目标申报数据与文本特征关键词的目标匹配度,根据目标匹配度确定数据真伪特征。
[0150]
具体地,财务风险验证处理装置还包括:
[0151]
训练文本图像获取单元61,用于获取训练文本图像,并将训练文本图像按预设比例划分成训练集和测试集。
[0152]
训练单字体样本获取单元62,用于采用垂直投影法对训练文本图像进行单字体切割,获取训练单字体图像,并对训练单字体图像进行顺序标注,获取训练单字体样本。
[0153]
原始文本识别模型获取单元63,用于将训练集中的训练单字体样本依据标注的顺序输入到长短时记忆神经网络中进行训练,采用批量梯度下降算法对长短时记忆神经网络的网络参数进行更新,获取原始文本识别模型。
[0154]
目标文本识别模型获取单元64,用于采用测试集中的训练单字体样本对原始文本识别模型进行测试,获取原始文本识别模型的识别准确率,在识别准确率大于预设准确率时,获取目标文本识别模型。
[0155]
具体地,财务单据数据分配模块40包括:
[0156]
数据分类确定单元41,用于根据目标风险等级对财务单据数据进行分类,确定财务单据数据为待流转数据或待审批数据。
[0157]
第一分配处理单元42,用于将待审批数据分配到与目标风险等级相对应的审批处理环节。
[0158]
第二分配处理单元43,用于将待流转数据分配到流转处理环节。
[0159]
关于财务风险验证处理装置的具体限定可以参见上文中对于财务风险验证处理方法的限定,在此不再赘述。上述财务风险验证处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0160]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储财务风险验证处理过程中产生的数据,如特征项数据和目标风险等级等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种财务风险验证处理方法。
[0161]
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,处理器执行计算机可读指令时实现以下步骤:获取财务审批请求,财务审批请求包括财务单据数据;对财务单据数据进行特征提取,获取特征项数据;将特征项数据输入到基于决策树算法的目标风险识别模型进行风险识别,获取目标风险等级;根据目标风险等级对财务单据数据进行分类处理,将财务单据数据分配到与目标风险等级相对应的下级处理流程,以对财务单据数据进行相应的风险验证。
[0162]
在一个实施例中,处理器执行计算机可读指令时还实现以下步骤:获取训练数据集,训练数据集包括至少两个训练单据数据,每一训练单据数据包括类别标签特征和至少两个训练属性特征;对训练数据集中的类别标签特征和训练属性特征进行信息增益率计算,获取每一训练属性特征对应的信息增益率; 选取信息增益率最大的训练属性特征作为训练数据集的目标分类特征,采用目标分类特征将训练数据集划分为至少两个训练子集;判断每一训练子集是否为单元素数据集;若所有训练子集均为单元素数据集,则获取基于决策树算法的目标风险识别模型;若任一训练子集不为单元素数据集,则将训练子集更新为训练数据集,重复执行对训练数据集中的类别标签特征和训练属性特征进行信息增益率计算,获取每一训练属性特征对应的信息增益率的步骤。
[0163]
在一个实施例中,处理器执行计算机可读指令时还实现以下步骤:采用类别信息熵公式对训练数据集中的类别标签特征进行计算,获取训练数据集的类别信息熵,类别信息熵公式为 其中,S为训练数据集,Entropy(S)为训练数据集S的类别信息熵,c为类别标签特征的值的数量,p i为第i个类别标签特征的概率;采用属性信息熵公式对每一训练属性特征进行计算,获取每一训练属性特征的属性信息熵,属性信息熵公式为 其中,Entropy(S,A)为训练属性特征A在训练数据集S中的属性信息熵,v为训练属性特征A的分支,Entropy(S v)为分支v的分支信息熵,|S v|为分支v的数量,|S|为训练数据集S的数量;采用信息增益公式对训练数据集的类别信息熵和每一训练属性特征的属性信息熵进行计算,获取每一训练属性特征的信息增益,信息增益公式为Gain(S,A)=Entropy(S)-Entropy(S,A),其中,Gain(S,,A)为训练属性特征A在训练数据集S中的信息增益;采用分裂信息度公式对每一训练属性特征进行计算,获取每一训练属性特征的分裂信息度,分裂信息度公式为 其中,m为训练属性特征A的值的数量,S j为m个值的训练属性特征A分割训练数据集S形成的第j个训练子集,|S j|为训练子集S j的数量,|S|为训练数据集S的数量;采用信息增益率公式对每一训练属性特征的信息增益和分裂信息度进行计算,获取每一训练属性特征的信息增益率,信息增益率公式为
[0164]
在一个实施例中,处理器执行计算机可读指令时还实现以下步骤:财务单据数据包括财务单据图像和与财务单据图像相对应的单据类型;特征项数据包括票据真伪特征;对财务单据数据进行特征提取,获取特征项数据,包括:若单据类型为发票类型,则采用发票OCR识别工具对财务单据图像进行发票真伪识别,确定财务单据图像的票据真伪特征为真票据或假票据;若单据类型为非发票类型,则确定财务单据图像的票据真伪特征为真伪未定票据。
[0165]
在一个实施例中,处理器执行计算机可读指令时还实现以下步骤:财务单据数据包括目标申报数据;特征项数据包括数据真伪特征;对财务单据数据进行特征提取,获取特征项数据,采用目标文本识别模型对财务单据图像进行文本识别,获取文本特征数据;采用关键词提取算法对文本特征数据进行关键词提取,获取文本特征关键词;计算目标申报数据与文本特征关键词的目标匹配度,根据目标匹配度确定数据真伪特征。
[0166]
在一个实施例中,处理器执行计算机可读指令时还实现以下步骤:获取训练文本图像,并将训练文本图像按预设比例划分成训练集和测试集;采用垂直投影法对训练文本图像进行单字体切割,获取训练单字体图像,并对训练单字体图像进行顺序标注,获取训练单字体样本;将训练集中的训练单字体样本依据标注的顺序输入到长短时记忆神经网络中进行训练,采用批量梯度下降算法对长短时记忆神经网络的网络参数进行更新,获取原始文本识别模型;采用测试集中的训练单字体样本对原始文本识别模型进行测试,获取原始文本识别模型的识别准确率,在识别准确率大于预设准确率时,获取目标文本识别模型。
[0167]
在一个实施例中,处理器执行计算机可读指令时还实现以下步骤:根据目标风险等级对财务单据数据进行分类,确定财务单据数据为待流转数据或待审批数据;将待审批数据分配到与目标风险等级相对应的审批处理环节;将待流转数据分配到流转处理环节。
[0168]
在一个实施例中,提供一个或多个存储有计算机可读指令的非易失性可读存储介质,计算机可读存储介质存储有计算机可读指令,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如下步骤:获取财务审批请求,财务审批请求包括财务单据数据;对财务单据数据进行特征提取,获取特征项数据;将特征项数据输入到基于决策树算法的目标风险识别模型进行风险识别,获取目标风险等级;根据目标风险等级对财务单据数据进行分类处理,将财务单据数据分配到与目标风险等级相对应的下级处理流程,以对财务单据数据进行相应的风险验证。
[0169]
在一个实施例中,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器还执行如下步骤:获取训练数据集,训练数据集包括至少两个训练单据数据,每一训练单据数据包括类别标签特征和至少两个训练属性特征;对训练数据集中的类别标签特征和训练属性特征进行信息增益率计算,获取每一训练属性特征对应的信息增益率;选取信息增益率最大的训练属性特征作为训练数据集的目标分类特征,采用目标分类特征将训练数据集划分为至少两个训练子集;判断每一训练子集是否为单元素数据集;若所有训练子集均为单元素数据集,则获取基于决策树算法的目标风险识别模型;若任一训练子集不为单元素数据集,则将训练子集更新为训练数据集,重复执行对训练数据集中的类别标签特征和训练属性特征进行信息增益率计算,获取每一训练属性特征对应的信息增益率的步骤。
[0170]
在一个实施例中,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器还执行如下步骤:采用类别信息熵公式对训练数据集中的类别标签特征进行计算,获取训练数据集的类别信息熵,类别信息熵公式为 其中,S为训练数据集,Entropy(S)为训练数据集S的类别信息熵,c为类别标签特征的值的数量,p i为第i个类别标签特征的概率;采用属性信息熵公式对每一训练属性特征进行计算,获取每一训练属性特征的属性信息熵,属性信息熵公式为 其中,Entropy(S,A)为训练属性特征A在训练数据集S中的属性信息熵,v为训练属性特征A的分支,Entropy(S v)为分支v的分支信息熵,|S v|为分支v的数量,|S|为训练数据集S的数量;采用信息增益公式对训练数据集的类别信息熵和每一训练属性特征的属性信息熵进行计算,获取每一训练属性特征的信息增益,信息增益公式为Gain(S,A)=Entropy(S)-Entropy(S,A),其中,Gain(S,A)为训练属性特征A在训练数据集S中的信息增益;采用分裂信息度公式对每一训练属性特征进行计算,获取每一训练属性特征的分裂信息度,分裂信息度公式为 其中,m为训练属性特征A的值的 数量,S j为m个值的训练属性特征A分割训练数据集S形成的第j个训练子集,|S j|为训练子集S j的数量,|S|为训练数据集S的数量;采用信息增益率公式对每一训练属性特征的信息增益和分裂信息度进行计算,获取每一训练属性特征的信息增益率,信息增益率公式为
[0171]
在一个实施例中,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器还执行如下步骤:财务单据数据包括财务单据图像和与财务单据图像相对应的单据类型;特征项数据包括票据真伪特征;对财务单据数据进行特征提取,获取特征项数据,包括:若单据类型为发票类型,则采用发票OCR识别工具对财务单据图像进行发票真伪识别,确定财务单据图像的票据真伪特征为真票据或假票据;若单据类型为非发票类型,则确定财务单据图像的票据真伪特征为真伪未定票据。
[0172]
在一个实施例中,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器还执行如下步骤:财务单据数据包括目标申报数据;特征项数据包括数据真伪特征;对财务单据数据进行特征提取,获取特征项数据,采用目标文本识别模型对财务单据图像进行文本识别,获取文本特征数据;采用关键词提取算法对文本特征数据进行关键词提取,获取文本特征关键词;计算目标申报数据与文本特征关键词的目标匹配度,根据目标匹配度确定数据真伪特征。
[0173]
在一个实施例中,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器还执行如下步骤:获取训练文本图像,并将训练文本图像按预设比例划分成训练集和测试集;采用垂直投影法对训练文本图像进行单字体切割,获取训练单字体图像,并对训练单字体图像进行顺序标注,获取训练单字体样本;将训练集中的训练单字体样本依据标注的顺序输入到长短时记忆神经网络中进行训练,采用批量梯度下降算法对长短时记忆神经网络的网络参数进行更新,获取原始文本识别模型;采用测试集中的训练单字体样本对原始文本识别模型进行测试,获取原始文本识别模型的识别准确率,在识别准确率大于预设准确率时,获取目标文本识别模型。
[0174]
在一个实施例中,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器还执行如下步骤:根据目标风险等级对财务单据数据进行分类,确定财务单据数据为待流转数据或待审批数据;将待审批数据分配到与目标风险等级相对应的审批处理环节;将待流转数据分配到流转处理环节。
[0175]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
[0176]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
[0177]
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

权利要求书

[权利要求 1]
一种财务风险验证处理方法,其特征在于,包括: 获取财务审批请求,所述财务审批请求包括财务单据数据; 对所述财务单据数据进行特征提取,获取特征项数据; 将所述特征项数据输入到基于决策树算法的目标风险识别模型进行风险识别,获取目标风险等级; 根据所述目标风险等级对所述财务单据数据进行分类处理,将所述财务单据数据分配到与所述目标风险等级相对应的下级处理流程,以对所述财务单据数据进行相应的风险验证。
[权利要求 2]
如权利要求1所述的财务风险验证处理方法,其特征在于,在所述获取财务审批请求的步骤之前,所述财务风险验证处理方法还包括: 获取训练数据集,所述训练数据集包括至少两个训练单据数据,每一训练单据数据包括类别标签特征和至少两个训练属性特征; 对所述训练数据集中的类别标签特征和训练属性特征进行信息增益率计算,获取每一所述训练属性特征对应的信息增益率; 选取信息增益率最大的训练属性特征作为所述训练数据集的目标分类特征,采用所述目标分类特征将所述训练数据集划分为至少两个训练子集; 判断每一所述训练子集是否为单元素数据集; 若所有训练子集均为单元素数据集,则获取基于决策树算法的目标风险识别模型; 若任一所述训练子集不为单元素数据集,则将所述训练子集更新为所述训练数据集,重复执行所述对所述训练数据集中的类别标签特征和训练属性特征进行信息增益率计算,获取每一所述训练属性特征对应的信息增益率的步骤。
[权利要求 3]
如权利要求2所述的财务风险验证处理方法,其特征在于,所述对所述训练数据集中的类别标签特征和训练属性特征进行信息增益率计算,获取每一所述训练属性特征对应的信息增益率,包括: 采用类别信息熵公式对所述训练数据集中的类别标签特征进行计算,获取所述训练数据集的类别信息熵,所述类别信息熵公式为 其中,S为训练数据集,Entropy(S)为训练数据集S的类别信息熵,c为类别标签特征的值的数量,p i为第i个类别标签特征的概率; 采用属性信息熵公式对每一所述训练属性特征进行计算,获取每一所述训练属性特征的属性信息熵,所述属性信息熵公式为 其中,Entropy(S,A)为训练属性特征A在训练数据集S中的属性信息熵,v为训练属性特征A的分支,Entropy(S v)为分支v的分支信息熵,|S v|为分支v的数量,|S|为训练数据集S的数量; 采用信息增益公式对所述训练数据集的类别信息熵和每一所述训练属性特征的属性信息熵进行计算,获取每一所述训练属性特征的信息增益,所述信息增益公式为Gain(S,A)=Entropy(S)-Entropy(S,A),其中,Gain(S,A)为训练属性特征A在训练数据集S中的信息增益; 采用分裂信息度公式对每一所述训练属性特征进行计算,获取每一所述训练属性特征的分裂信息度,所述分裂信息度公式为 其中,m为训练属性特征A 的值的数量,S j为m个值的训练属性特征A分割训练数据集S形成的第j个训练子集,|S j|为训练子集S j的数量,|S|为训练数据集S的数量; 采用信息增益率公式对每一所述训练属性特征的信息增益和分裂信息度进行计算,获取每一所述训练属性特征的信息增益率,所述信息增益率公式为
[权利要求 4]
如权利要求1所述的财务风险验证处理方法,其特征在于,所述财务单据数据包括财务单据图像和与所述财务单据图像相对应的单据类型; 所述特征项数据包括票据真伪特征; 所述对所述财务单据数据进行特征提取,获取特征项数据,包括: 若所述单据类型为发票类型,则采用发票OCR识别工具对所述财务单据图像进行发票真伪识别,确定所述财务单据图像的票据真伪特征为真票据或假票据; 若所述单据类型为非发票类型,则确定所述财务单据图像的票据真伪特征为真伪未定票据。
[权利要求 5]
如权利要求1所述的财务风险验证处理方法,其特征在于,所述财务单据数据包括目标申报数据; 所述特征项数据包括数据真伪特征; 所述对所述财务单据数据进行特征提取,获取特征项数据,包括: 采用目标文本识别模型对所述财务单据图像进行文本识别,获取文本特征数据; 采用关键词提取算法对所述文本特征数据进行关键词提取,获取文本特征关键词; 计算所述目标申报数据与所述文本特征关键词的目标匹配度,根据所述目标匹配度确定所述数据真伪特征。
[权利要求 6]
如权利要求5所述的财务风险验证处理方法,其特征在于,在所述采用目标文本识别模型对所述财务单据图像进行文本识别,获取文本特征数据的步骤之前,所述财务风险验证处理方法还包括: 获取训练文本图像,并将所述训练文本图像按预设比例划分成训练集和测试集; 采用垂直投影法对训练文本图像进行单字体切割,获取训练单字体图像,并对所述训练单字体图像进行顺序标注,获取训练单字体样本; 将训练集中的训练单字体样本依据标注的顺序输入到长短时记忆神经网络中进行训练,采用批量梯度下降算法对所述长短时记忆神经网络的网络参数进行更新,获取原始文本识别模型; 采用测试集中的训练单字体样本对所述原始文本识别模型进行测试,获取所述原始文本识别模型的识别准确率,在所述识别准确率大于预设准确率时,获取目标文本识别模型。
[权利要求 7]
如权利要求1所述的财务风险验证处理方法,其特征在于,所述根据所述目标风险等级对所述财务单据数据进行分类处理,将所述财务单据数据分配到与所述目标风险等级相对应的下级处理流程,包括: 根据所述目标风险等级对所述财务单据数据进行分类,确定所述财务单据数据为待流转数据或待审批数据; 将所述待审批数据分配到与所述目标风险等级相对应的审批处理环节; 将所述待流转数据分配到流转处理环节。
[权利要求 8]
一种财务风险验证处理装置,其特征在于,包括: 财务审批请求获取模块,用于获取财务审批请求,所述财务审批请求包括财务单据数据; 特征项数据提取模块,用于对所述财务单据数据进行特征提取,获取特征项数据; 目标风险等级获取模块,用于将所述特征项数据输入到基于决策树算法的目标风险识别模型进行风险识别,获取目标风险等级; 财务单据数据分配模块,用于根据所述目标风险等级对所述财务单据数据进行分类处理,将所述财务单据数据分配到与所述目标风险等级相对应的下级处理流程,以对所述财务单据数据进行相应的风险 验证。
[权利要求 9]
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如下步骤: 获取财务审批请求,所述财务审批请求包括财务单据数据; 对所述财务单据数据进行特征提取,获取特征项数据; 将所述特征项数据输入到基于决策树算法的目标风险识别模型进行风险识别,获取目标风险等级; 根据所述目标风险等级对所述财务单据数据进行分类处理,将所述财务单据数据分配到与所述目标风险等级相对应的下级处理流程,以对所述财务单据数据进行相应的风险验证。
[权利要求 10]
如权利要求9所述的计算机设备,其特征在于,在所述获取财务审批请求的步骤之前,所述处理器执行所述计算机可读指令时还实现如下步骤: 获取训练数据集,所述训练数据集包括至少两个训练单据数据,每一训练单据数据包括类别标签特征和至少两个训练属性特征; 对所述训练数据集中的类别标签特征和训练属性特征进行信息增益率计算,获取每一所述训练属性特征对应的信息增益率; 选取信息增益率最大的训练属性特征作为所述训练数据集的目标分类特征,采用所述目标分类特征将所述训练数据集划分为至少两个训练子集; 判断每一所述训练子集是否为单元素数据集; 若所有训练子集均为单元素数据集,则获取基于决策树算法的目标风险识别模型; 若任一所述训练子集不为单元素数据集,则将所述训练子集更新为所述训练数据集,重复执行所述对所述训练数据集中的类别标签特征和训练属性特征进行信息增益率计算,获取每一所述训练属性特征对应的信息增益率的步骤。
[权利要求 11]
如权利要求10所述的计算机设备,其特征在于,所述对所述训练数据集中的类别标签特征和训练属性特征进行信息增益率计算,获取每一所述训练属性特征对应的信息增益率,包括: 采用类别信息熵公式对所述训练数据集中的类别标签特征进行计算,获取所述训练数据集的类别信息熵,所述类别信息熵公式为 其中,S为训练数据集,Entropy(S)为训练数据集S的类别信息熵,c为类别标签特征的值的数量,p i为第i个类别标签特征的概率; 采用属性信息熵公式对每一所述训练属性特征进行计算,获取每一所述训练属性特征的属性信息熵,所述属性信息熵公式为 其中,Entropy(S,A)为训练属性特征A在训练数据集S中的属性信息熵,v为训练属性特征A的分支,Entropy(S v)为分支v的分支信息熵,|S v|为分支v的数量,|S|为训练数据集S的数量; 采用信息增益公式对所述训练数据集的类别信息熵和每一所述训练属性特征的属性信息熵进行计算,获取每一所述训练属性特征的信息增益,所述信息增益公式为Gain(S,A)=Entropy(S)-Entropy(S,A),其中,Gain(S,A)为训练属性特征A在训练数据集S中的信息增益; 采用分裂信息度公式对每一所述训练属性特征进行计算,获取每一所述训练属性特征的分裂信息度,所述分裂信息度公式为 其中,m为训练属性特征A 的值的数量,S j为m个值的训练属性特征A分割训练数据集S形成的第j个训练子集,|S j|为训练子集S j的数量,|S|为训练数据集S的数量; 采用信息增益率公式对每一所述训练属性特征的信息增益和分裂信息度进行计算,获取每一所述训练属性特征的信息增益率,所述信息增益率公式为
[权利要求 12]
如权利要求9所述的计算机设备,其特征在于,所述财务单据数据包括财务单据图像和与所述财务单据图像相对应的单据类型; 所述特征项数据包括票据真伪特征; 所述对所述财务单据数据进行特征提取,获取特征项数据,包括: 若所述单据类型为发票类型,则采用发票OCR识别工具对所述财务单据图像进行发票真伪识别,确定所述财务单据图像的票据真伪特征为真票据或假票据; 若所述单据类型为非发票类型,则确定所述财务单据图像的票据真伪特征为真伪未定票据。
[权利要求 13]
如权利要求9所述的计算机设备,其特征在于,所述财务单据数据包括目标申报数据; 所述特征项数据包括数据真伪特征; 所述对所述财务单据数据进行特征提取,获取特征项数据,包括: 采用目标文本识别模型对所述财务单据图像进行文本识别,获取文本特征数据; 采用关键词提取算法对所述文本特征数据进行关键词提取,获取文本特征关键词; 计算所述目标申报数据与所述文本特征关键词的目标匹配度,根据所述目标匹配度确定所述数据真伪特征。
[权利要求 14]
如权利要求13所述的计算机设备,其特征在于,在所述采用目标文本识别模型对所述财务单据图像进行文本识别,获取文本特征数据的步骤之前,所述处理器执行所述计算机可读指令时还实现如下步骤: 获取训练文本图像,并将所述训练文本图像按预设比例划分成训练集和测试集; 采用垂直投影法对训练文本图像进行单字体切割,获取训练单字体图像,并对所述训练单字体图像进行顺序标注,获取训练单字体样本; 将训练集中的训练单字体样本依据标注的顺序输入到长短时记忆神经网络中进行训练,采用批量梯度下降算法对所述长短时记忆神经网络的网络参数进行更新,获取原始文本识别模型; 采用测试集中的训练单字体样本对所述原始文本识别模型进行测试,获取所述原始文本识别模型的识别准确率,在所述识别准确率大于预设准确率时,获取目标文本识别模型。
[权利要求 15]
一个或多个存储有计算机可读指令的非易失性可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如下步骤: 获取财务审批请求,所述财务审批请求包括财务单据数据; 对所述财务单据数据进行特征提取,获取特征项数据; 将所述特征项数据输入到基于决策树算法的目标风险识别模型进行风险识别,获取目标风险等级; 根据所述目标风险等级对所述财务单据数据进行分类处理,将所述财务单据数据分配到与所述目标风险等级相对应的下级处理流程,以对所述财务单据数据进行相应的风险验证。
[权利要求 16]
如权利要求15所述的非易失性可读存储介质,其特征在于,在所述获取财务审批请求的步骤之前,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器还执行如下步骤: 获取训练数据集,所述训练数据集包括至少两个训练单据数据,每一训练单据数据包括类别标签特征和至少两个训练属性特征; 对所述训练数据集中的类别标签特征和训练属性特征进行信息增益率计算,获取每一所述训练属性特征对应的信息增益率; 选取信息增益率最大的训练属性特征作为所述训练数据集的目标分类特征,采用所述目标分类特征将所述训练数据集划分为至少两个训练子集; 判断每一所述训练子集是否为单元素数据集; 若所有训练子集均为单元素数据集,则获取基于决策树算法的目标风险识别模型; 若任一所述训练子集不为单元素数据集,则将所述训练子集更新为所述训练数据集,重复执行所述对所述训练数据集中的类别标签特征和训练属性特征进行信息增益率计算,获取每一所述训练属性特征对应的信息增益率的步骤。
[权利要求 17]
如权利要求16所述的非易失性可读存储介质,其特征在于,所述对所述训练数据集中的类别标签特征和训练属性特征进行信息增益率计算,获取每一所述训练属性特征对应的信息增益率,包括: 采用类别信息熵公式对所述训练数据集中的类别标签特征进行计算,获取所述训练数据集的类别信息熵,所述类别信息熵公式为 其中,S为训练数据集,Entropy(S)为训练数据集S的类别信息熵,c为类别标签特征的值的数量,p i为第i个类别标签特征的概率; 采用属性信息熵公式对每一所述训练属性特征进行计算,获取每一所述训练属性特征的属性信息熵,所述属性信息熵公式为 其中,Entropy(S,A)为训练属性特征A在训练数据集S中的属性信息熵,v为训练属性特征A的分支,Entropy(S v)为分支v的分支信息熵,|S v|为分支v的数量,|S|为训练数据集S的数量; 采用信息增益公式对所述训练数据集的类别信息熵和每一所述训练属性特征的属性信息熵进行计算,获取每一所述训练属性特征的信息增益,所述信息增益公式为Gain(S,A)=Entropy(S)-Entropy(S,A),其中,Gain(S,A)为训练属性特征A在训练数据集S中的信息增益; 采用分裂信息度公式对每一所述训练属性特征进行计算,获取每一所述训练属性特征的分裂信息度,所述分裂信息度公式为 其中,m为训练属性特征A的值的数量,S j为m个值的训练属性特征A分割训练数据集S形成的第j个训练子集,|S j|为训练子集S j的数量,|S|为训练数据集S的数量; 采用信息增益率公式对每一所述训练属性特征的信息增益和分裂信息度进行计算,获取每一所述训练属性特征的信息增益率,所述信息增益率公式为
[权利要求 18]
如权利要求15所述的非易失性可读存储介质,其特征在于,所述财务单据数据包括财务单据图像和与所述财务单据图像相对应的单据类型; 所述特征项数据包括票据真伪特征; 所述对所述财务单据数据进行特征提取,获取特征项数据,包括: 若所述单据类型为发票类型,则采用发票OCR识别工具对所述财务单据图像进行发票真伪识别,确定所述财务单据图像的票据真伪特征为真票据或假票据; 若所述单据类型为非发票类型,则确定所述财务单据图像的票据真伪特征为真伪未定票据。
[权利要求 19]
如权利要求15所述的非易失性可读存储介质,其特征在于,所述财务单据数据包括目标申报数据; 所述特征项数据包括数据真伪特征; 所述对所述财务单据数据进行特征提取,获取特征项数据,包括: 采用目标文本识别模型对所述财务单据图像进行文本识别,获取文本特征数据; 采用关键词提取算法对所述文本特征数据进行关键词提取,获取文本特征关键词; 计算所述目标申报数据与所述文本特征关键词的目标匹配度,根据所述目标匹配度确定所述数据真伪特征。
[权利要求 20]
如权利要求19所述的非易失性可读存储介质,其特征在于,在所述采用目标文本识别模型对所述财务单据图像进行文本识别,获取文本特征数据的步骤之前,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器还执行如下步骤: 获取训练文本图像,并将所述训练文本图像按预设比例划分成训练集和测试集; 采用垂直投影法对训练文本图像进行单字体切割,获取训练单字体图像,并对所述训练单字体图像进行顺序标注,获取训练单字体样本; 将训练集中的训练单字体样本依据标注的顺序输入到长短时记忆神经网络中进行训练,采用批量梯度下降算法对所述长短时记忆神经网络的网络参数进行更新,获取原始文本识别模型; 采用测试集中的训练单字体样本对所述原始文本识别模型进行测试,获取所述原始文本识别模型的识别准确率,在所述识别准确率大于预设准确率时,获取目标文本识别模型。

附图

[ 图 1]  
[ 图 2]  
[ 图 3]  
[ 图 4]  
[ 图 5]  
[ 图 6]  
[ 图 7]  
[ 图 8]  
[ 图 9]