Algum conteúdo deste aplicativo está indisponível no momento.
Se esta situação persistir, por favor entre em contato conoscoFale conosco & Contato
1. (WO2019062186) DIABETES ANALYSIS METHOD, APPLICATION SERVER AND COMPUTER READABLE STORAGE MEDIUM
Document

说明书

发明名称 0001   0002   0003   0004   0005   0006   0007   0008   0009   0010   0011   0012   0013   0014   0015   0016   0017   0018   0019   0020   0021   0022   0023   0024   0025   0026   0027   0028   0029   0030   0031   0032   0033   0034   0035   0036   0037   0038   0039   0040   0041   0042   0043   0044   0045   0046   0047   0048   0049   0050   0051   0052   0053   0054   0055   0056   0057   0058   0059   0060   0061   0062   0063   0064   0065   0066   0067   0068   0069   0070   0071   0072   0073   0074   0075   0076   0077   0078   0079   0080   0081   0082   0083   0084   0085   0086   0087   0088   0089   0090   0091   0092   0093   0094   0095   0096  

权利要求书

1   2   3   4   5   6   7   8   9   10   11   12   13   14   15   16   17   18   19   20  

附图

1   2   3   4   5  

说明书

发明名称 : 糖尿病分析方法、应用服务器和计算机可读存储介质

[0001]
本申请基于巴黎公约申明享有2017年9月30日递交的申请号为CN 201710916176.5、名称为“糖尿病分析方法及应用服务器”中国专利申请的优先权,该中国专利申请的整体内容以参考的方式结合在本申请中。

技术领域

[0002]
本申请涉及数据分析技术领域,特别涉及一种糖尿病分析方法、应用服务器和计算机可读存储介质。

背景技术

[0003]
糖尿病是一组由多病因引起的以慢性高血糖为特征的终身性代谢性疾病。长期血糖增高,大血管、微血管受损并危及心、脑、肾、周围神经、眼睛、足等,据世界卫生组织统计,糖尿病并发症高达100多种,是目前已知并发症最多的一种疾病。糖尿病死亡者有一半以上是心脑血管所致,10%是肾病变所致。因糖尿病截肢的患者是非糖尿病的10~20倍。临床数据显示,糖尿病发病后10年左右,将有30%~40%的患者至少会发生一种并发症,且并发症一旦产生,药物治疗很难逆转,因此强调尽早预防糖尿病并发症。
[0004]
糖尿病的发病存在三方面因素:遗传、环境因素和生理性老化引起胰岛素抵抗和胰岛素作用不足。根据糖尿病并发症发病的急缓以及病理上的差异,可将其分为急性和慢性两大类。传统医学上,由于并发症的多样化导致并发症的确诊较为复杂,时间开销很大,很容易耽误治疗及预防时间。
[0005]
发明内容
[0006]
本申请提供一种糖尿病分析方法、应用服务器和计算机可读存储介质,以解决如何有效预防糖尿病及其他并发症的问题。
[0007]
本申请第一方面提供一种糖尿病分析方法,该方法包括步骤:
[0008]
设置样本范围,包括用户范围和数据维度;
[0009]
根据所设置的样本范围,获取相应的样本数据;
[0010]
对所述样本数据中的各个数据维度与糖尿病或并发症的关系进行关联分析,其中,将是否患糖尿病或并发症作为关联规则的右项集,其他数据维度作为左项集;及
[0011]
输出关联分析结果。
[0012]
本申请第二方面提供一种应用服务器,所述应用服务器包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的糖尿病分析系统,所述糖尿病分析系统被所述处理器执行时实现如下步骤:
[0013]
设置样本范围,包括用户范围和数据维度;
[0014]
根据所设置的样本范围,获取相应的样本数据;
[0015]
对所述样本数据中的各个数据维度与糖尿病或并发症的关系进行关联分析,其中,将是否患糖尿病或并发症作为关联规则的右项集,其他数据维度作为左项集;及
[0016]
输出关联分析结果。
[0017]
本申请第三方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有糖尿病分析系统,所述企业推荐程序可被至少一个处理器执行,以使所述至少一个处理器执行以下步骤:
[0018]
设置样本范围,包括用户范围和数据维度;
[0019]
根据所设置的样本范围,获取相应的样本数据;
[0020]
对所述样本数据中的各个数据维度与糖尿病或并发症的关系进行关联分析,其中,将是否患糖尿病或并发症作为关联规则的右项集,其他数据维度作为左项集;及
[0021]
输出关联分析结果。
[0022]
相较于现有技术,本申请所提出的糖尿病分析方法、应用服务器及计算机可读存储介质,可以利用大数据,基于庞大的用户样本,寻找样本的各个维度的特征及患病信息。通过关联分析的方法,研究各类不同的人群的各类患病之间的潜在关系。进而通过用户的患病情况得到各类不同用户患糖尿病的几率、糖尿病患者产生其他并发症的几率、以及糖尿病与其他影响因素之间的关系。最终帮助潜在糖尿病患者提早预防,并帮助糖尿病患者预防其他并发症的产生。

附图说明

[0023]
图1是本申请应用服务器一可选的硬件架构的示意图;
[0024]
图2是本申请糖尿病分析系统第一实施例的程序模块示意图;
[0025]
图3是本申请糖尿病分析系统第二实施例的程序模块示意图;
[0026]
图4是本申请糖尿病分析方法第一实施例的流程示意图;
[0027]
图5是本申请糖尿病分析方法第二实施例的流程示意图。
[0028]
附图标记:
[0029]
[表0001]
应用服务器 2
存储器 11
处理器 12
网络接口 13

[0030]
[表0002]
糖尿病分析系统 200
设置模块 201
获取模块 202
分析模块 203
输出模块 204
预处理模块 205

具体实施方式

[0031]
以下结合附图对本申请的原理和特征进行描述,所举实例只用于解释本申请,并非用于限定本申请的范围。
[0032]
参阅图1所示,是本申请应用服务器2一可选的硬件架构的示意图。
[0033]
本实施例中,所述应用服务器2可包括,但不仅限于,可通过系统总线相互通信连接存储器11、处理器12、网络接口13。需要指出的是,图2仅示出了具有组件11-13的应用服务器2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
[0034]
其中,所述应用服务器2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备,该应用服务器2可以是独立的服务器,也可以是多个服务器所组成的服务器集群。
[0035]
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述应用服务器2的内部存储单元,例如该应用服务器2的硬盘或内存。在另一些实施例中,所述存储器11也可以是所述应用服务器2的外部存储设备,例如该应用服务器2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器11还可以既包括所述应用服务器2的内部存储单元也包括其外部存储设备。本实施例中,所述存储器11通常用于存储安装于所述应用服务器2的操作系统和各类应用软件,例如糖尿病分析系统200的程 序代码等。此外,所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
[0036]
所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述应用服务器2的总体操作。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行所述的糖尿病分析系统200等。
[0037]
所述网络接口13可包括无线网络接口或有线网络接口,该网络接口13通常用于在所述应用服务器2与其他电子设备之间建立通信连接。
[0038]
至此,己经详细介绍了本申请相关设备的硬件结构和功能。下面,将基于上述介绍提出本申请的各个实施例。
[0039]
首先,本申请提出一种糖尿病分析系统200。
[0040]
参阅图2所示,是本申请糖尿病分析系统200第一实施例的程序模块图。
[0041]
本实施例中,所述糖尿病分析系统200包括一系列的存储于存储器11上的计算机程序指令,当该计算机程序指令被处理器12执行时,可以实现本申请各实施例的糖尿病分析操作。在一些实施例中,基于该计算机程序指令各部分所实现的特定的操作,糖尿病分析系统200可以被划分为一个或多个模块。例如,在图3中,所述糖尿病分析系统200可以被分割成设置模块201、获取模块202、分析模块203、输出模块204。其中:
[0042]
所述设置模块201,用于设置样本范围,包括用户范围和数据维度。
[0043]
具体地,本实施例需要利用大数据,基于庞大的用户样本,寻找样本的各个维度的特征及患病信息,从而分析出各类不同的人群的各类患病之间的潜在关系。
[0044]
首先,需要设置所采集的样本的范围,所述样本范围包括用户范围和数据维度。其中,所述用户范围包括数据来源及采集时间、城市、年龄、性别等。例如,可以设置从医院和保险公司的数据库中采集2010年至2015年深圳市18岁以上的所有男性及女性用户的数据。所述数据维度包括人口属性(性别、年龄、婚姻、学历等)、用户是否患有糖尿病及并发症、健康以及非健康因子等多个维度。例如,健康因子包括体检、用药等相关因子;非健康因子包括职业、金融消费等相关因子。
[0045]
所述获取模块202,用于根据所设置的样本范围,获取相应的样本数据。
[0046]
具体地,根据所述用户范围,从所述数据来源中获取所述采集时间内所设置的城市的符合所述年龄和性别等特征的用户对应的所有所述数据维度的数据。
[0047]
所述分析模块203,用于对样本数据中的各个数据维度与糖尿病或并发症的关系进行关联分析。
[0048]
具体地,从样本数据中获取各用户患病情况,包括糖尿病及其并发症。将是否患糖尿病或并发症作为关联规则的右项集,其他数据维度作为左项集进行关联分析。从结果中筛选出高提升度的规则,对应的左项集因子即为糖尿病或并发症的患病因子。按关联分析中找到的左项集因子对用户进行分类,其中包括健康因子、非健康因子、人口属性等。对每一类用户进行进一步深入的分析,计算各类用户患糖尿病几率,产生各种并发症几率。比较各类用户的患病比例,找出糖尿病或并发症与不同的患病因子之间的病理关系,以及不同患病因子对于用户患上糖尿病或并发症的影响的强弱程度。
[0049]
所述输出模块204,用于输出关联分析结果。
[0050]
具体地,所述关联分析结果包括关联项集以及相应的支持度、置信度、提升度,用于发现各个因素与糖尿病或并发症之间的关联关系,从而找到糖尿病或并发症潜在的患病因子、以及不同人群的各类患病因子对糖尿病或并发症的影响的强弱关系。
[0051]
关联因子相应的支持度、置信度、提升度说明了该关联因子所属类别的患者与是否患有糖尿病或并发症的关联关系。例如,因子i的支持度是a%,表示包含因子i的人群在总人群中的占比;置信度是b%,表示包含因子i的人群中患有糖尿病的人群的所占比例为b%;提升度是c,表示上述人群占比相比于总人群中糖尿病患者占比的倍数提升了c倍。说明了因子i作为糖尿病的患病因子的强弱程度。
[0052]
本实施例利用了大量的用户样本,使用关联分析的方法挖掘糖尿病(并发症)与其他维度特征之间的关系,而不是简单的依照病理关系来确定糖尿病(并发症)的患病因子。这样能更全面的挖掘出更多潜在的患病信息,并能得到每项因子对患病产生的影响程度的数值化结果,能更加直观的比较不同因子的重要性。
[0053]
参阅图3所示,是本申请糖尿病分析系统200第二实施例的程序模块图。本实施例中,所述的糖尿病分析系统200除了包括第一实施例中的所述设置模块201、获取模块202、分析模块203、输出模块204之外,还包括预处理模块205。
[0054]
所述预处理模块205用于在所述获取模块202获取样本数据后,对所述样本数据进行预处理。
[0055]
具体地,所述预处理包括缺失值处理和连续变量的离散化。
[0056]
在本实施例中,默认将有缺失的数据进行丢弃。如果想保留包含缺失的数据,需要先对缺失值进行填充。本实施例中的样本缺失值主要通过如下方法填充:
[0057]
a)人口属性和体检指标中涉及到的连续变量用均值填充;
[0058]
b)金融消费属性中涉及到的连续变量用0填充;
[0059]
c)各类疾病涉及到的缺失值用0填充,即缺失表示未患病;
[0060]
d)其他离散维度用-1填充,单独表示缺失类。
[0061]
该关联规则不能处理连续变量,因此对连续变量进行等频或等宽分箱。例如,本实施例中对年龄进行了等宽分箱,后期又将数据量较小的几个箱进行了合并。其余数据由于数据分布不均匀,左偏现象严重,因此采用等频分箱。
[0062]
此外,本申请还提出一种糖尿病分析方法。
[0063]
参阅图4所示,是本申请糖尿病分析方法第一实施例的流程示意图。在本实施例中,根据不同的需求,图4所示的流程图中的步骤的执行顺序可以改变,某些步骤可以省略。
[0064]
步骤S400,设置样本范围,包括用户范围和数据维度。
[0065]
具体地,本实施例需要利用大数据,基于庞大的用户样本,寻找样本的各个维度的特征及患病信息,从而分析出各类不同的人群的各类患病之间的潜在关系。
[0066]
首先,需要设置所采集的样本的范围,所述样本范围包括用户范围和数据维度。其中,所述用户范围包括数据来源及采集时间、城市、年龄、性别等。例如,可以设置从医院和保险公司的数据库中采集2010年至2015年深圳市18岁以上的所有男性及女性用户的数据。所述数据维度包括人口属性(性别、年龄、婚姻、学历等)、用户是否患有糖尿病及并发症、健康以及非健康因子等多个维度。例如,健康因子包括体检、用药等相关因子;非健康因子包括职业、金融消费等相关因子。
[0067]
步骤S402,根据所设置的样本范围,获取相应的样本数据。
[0068]
具体地,根据所述用户范围,从所述数据来源中获取所述采集时间内所设置的城市的符合所述年龄和性别等特征的用户对应的所有所述数据维度的数据。
[0069]
步骤S404,对样本数据中的各个数据维度与糖尿病或并发症的关系进行关联分析。
[0070]
具体地,从样本数据中获取各用户患病情况,包括糖尿病及其并发症。将是否患糖尿病或并发症作为关联规则的右项集,其他数据维度作为左项集进行关联分析。从结果中筛选出高提升度的规则,对应的左项集因子即为糖尿病或并发症的患病因子。按关联分析中找到的 左项集因子对用户进行分类,其中包括健康因子、非健康因子、人口属性等。对每一类用户进行进一步深入的分析,计算各类用户患糖尿病几率,产生各种并发症几率。比较各类用户的患病比例,找出糖尿病或并发症与不同的患病因子之间的病理关系,以及不同患病因子对于用户患上糖尿病或并发症的影响的强弱程度。
[0071]
步骤S406,输出关联分析结果。
[0072]
具体地,所述关联分析结果包括关联项集以及相应的支持度、置信度、提升度,用于发现各个因素与糖尿病或并发症之间的关联关系,从而找到糖尿病或并发症潜在的患病因子、以及不同人群的各类患病因子对糖尿病或并发症的影响的强弱关系。
[0073]
关联因子相应的支持度、置信度、提升度说明了该关联因子所属类别的患者与是否患有糖尿病或并发症的关联关系。例如,因子i的支持度是a%,表示包含因子i的人群在总人群中的占比;置信度是b%,表示包含因子i的人群中患有糖尿病的人群的所占比例为b%;提升度是c,表示上述人群占比相比于总人群中糖尿病患者占比的倍数提升了c倍。说明了因子i作为糖尿病的患病因子的强弱程度。
[0074]
本实施例所提出的糖尿病分析方法,利用了大量的用户样本,使用关联分析的方法挖掘糖尿病(并发症)与其他维度特征之间的关系,而不是简单的依照病理关系来确定糖尿病(并发症)的患病因子。这样能更全面的挖掘出更多潜在的患病信息,并能得到每项因子对患病产生的影响程度的数值化结果,能更加直观的比较不同因子的重要性。
[0075]
如图5所示,是本申请糖尿病分析方法的第二实施例的流程示意图。本实施例中,所述糖尿病分析方法的步骤S500-S502及S506-S508与第一实施例的步骤S400-S406相类似,区别在于该方法还包括步骤S504。
[0076]
该方法包括以下步骤:
[0077]
步骤S500,设置样本范围,包括用户范围和数据维度。
[0078]
具体地,本实施例需要利用大数据,基于庞大的用户样本,寻找样本的各个维度的特征及患病信息,从而分析出各类不同的人群的各类患病之间的潜在关系。
[0079]
首先,需要设置所采集的样本的范围,所述样本范围包括用户范围和数据维度。其中,所述用户范围包括数据来源及采集时间、城市、年龄、性别等。例如,可以设置从医院和保险公司的数据库中采集2010年至2015年深圳市18岁以上的所有男性及女性用户的数据。所述数据维度包括人口属性(性别、年龄、婚姻、学历等)、用户是否患有糖尿病及并发症、健康以及非健康因子等多个维度。例如,健康因子包 括体检、用药等相关因子;非健康因子包括职业、金融消费等相关因子。
[0080]
步骤S502,根据所设置的样本范围,获取相应的样本数据。
[0081]
具体地,根据所述用户范围,从所述数据来源中获取所述采集时间内所设置的城市的符合所述年龄和性别等特征的用户对应的所有所述数据维度的数据。
[0082]
步骤S504,对所述样本数据进行预处理。
[0083]
具体地,所述预处理包括缺失值处理和连续变量的离散化。
[0084]
在本实施例中,默认将有缺失的数据进行丢弃。如果想保留包含缺失的数据,需要先对缺失值进行填充。本实施例中的样本缺失值主要通过如下方法填充:
[0085]
a)人口属性和体检指标中涉及到的连续变量用均值填充;
[0086]
b)金融消费属性中涉及到的连续变量用0填充;
[0087]
c)各类疾病涉及到的缺失值用0填充,即缺失表示未患病;
[0088]
d)其他离散维度用-1填充,单独表示缺失类。
[0089]
该关联规则不能处理连续变量,因此对连续变量进行等频或等宽分箱。例如,本实施例中对年龄进行了等宽分箱,后期又将数据量较小的几个箱进行了合并。其余数据由于数据分布不均匀,左偏现象严重,因此采用等频分箱。
[0090]
步骤S506,对样本数据中的各个数据维度与糖尿病或并发症的关系进行关联分析。
[0091]
具体地,从样本数据中获取各用户患病情况,包括糖尿病及其并发症。将是否患糖尿病或并发症作为关联规则的右项集,其他数据维度作为左项集进行关联分析。从结果中筛选出高提升度的规则,对应的左项集因子即为糖尿病或并发症的患病因子。按关联分析中找到的左项集因子对用户进行分类,其中包括健康因子、非健康因子、人口属性等。对每一类用户进行进一步深入的分析,计算各类用户患糖尿病几率,产生各种并发症几率。比较各类用户的患病比例,找出糖尿病或并发症与不同的患病因子之间的病理关系,以及不同患病因子对于用户患上糖尿病或并发症的影响的强弱程度。
[0092]
步骤S508,输出关联分析结果。
[0093]
具体地,所述关联分析结果包括关联项集以及相应的支持度、置信度、提升度,用于发现各个因素与糖尿病或并发症之间的关联关系,从而找到糖尿病或并发症潜在的患病因子、以及不同人群的各类患病因子对糖尿病或并发症的影响的强弱关系。
[0094]
关联因子相应的支持度、置信度、提升度说明了该关联因子所属类别的患者与是否患有糖尿病或并发症的关联关系。例如,因子i的支持度是a%,表示包含因子i的人群在总人群中的占比;置信度是b%, 表示包含因子i的人群中患有糖尿病的人群的所占比例为b%;提升度是c,表示上述人群占比相比于总人群中糖尿病患者占比的倍数提升了c倍。说明了因子i作为糖尿病的患病因子的强弱程度。
[0095]
本实施例所提出的糖尿病分析方法,可以利用大数据,基于庞大的用户样本,寻找样本的各个维度的特征及患病信息。在获取到样本数据后,先对所述样本数据进行预处理,以便于后续通过关联分析的方法,研究各类不同的人群的各类患病之间的潜在关系。进而通过用户的患病情况得到各类不同用户患糖尿病的几率、糖尿病患者产生其他并发症的几率、以及糖尿病与其他影响因素之间的关系。最终帮助潜在糖尿病患者提早预防,并帮助糖尿病患者预防其他并发症的产生。
[0096]
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是在本申请的申请构思下,利用本申请说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本申请的专利保护范围内。

权利要求书

[权利要求 1]
一种糖尿病分析方法,应用于应用服务器,其特征在于,所述方法包括步骤: 设置样本范围,包括用户范围和数据维度; 根据所设置的样本范围,获取相应的样本数据; 对所述样本数据中的各个数据维度与糖尿病或并发症的关系进行关联分析,其中,将是否患糖尿病或并发症作为关联规则的右项集,其他数据维度作为左项集;及 输出关联分析结果。
[权利要求 2]
如权利要求1所述的糖尿病分析方法,其特征在于,该方法在进行所述关联分析之前还包括步骤: 对所述样本数据进行预处理,包括缺失值处理和连续变量的离散化。
[权利要求 3]
如权利要求2所述的糖尿病分析方法,其特征在于,所述用户范围包括数据来源及采集时间、城市、年龄、性别;所述数据维度包括人口属性、用户是否患有糖尿病及并发症、健康以及非健康因子。
[权利要求 4]
如权利要求2所述的糖尿病分析方法,其特征在于,所述对所述样本数据中的各个数据维度与糖尿病或并发症的关系进行关联分析的步骤具体包括: 从样本数据中获取各用户患病情况,包括糖尿病及其并发症; 将是否患糖尿病或并发症作为关联规则的右项集,其他数据维度作为左项集进行关联分析; 从结果中筛选出高提升度的规则,对应的左项集因子即为糖尿病或并发症的患病因子。
[权利要求 5]
如权利要求4所述的糖尿病分析方法,其特征在于,所述对所述样本数据中的各个数据维度与糖尿病或并发症的关系进行关联分析的步骤还包括: 按关联分析中找到的左项集因子对用户进行分类; 对每一类用户进行进一步深入的分析,计算各类用户患糖尿病几率,产生各种并发症几率; 比较各类用户的患病比例,找出糖尿病或并发症与不同的患病因子之间的病理关系,以及不同患病因子对于用户患上糖尿病或并发症的影响的强弱程度。
[权利要求 6]
如权利要求2所述的糖尿病分析方法,其特征在于,所述关联分析结果包括关联项集以及相应的支持度、置信度、提升度。
[权利要求 7]
如权利要求2所述的糖尿病分析方法,其特征在于,所述缺失值处理包括: 默认将有缺失的数据进行丢弃,若要保留包含缺失的数据,则先对缺失值进行填充;所述缺失值的填充方式包括: 人口属性和体检指标中涉及到的连续变量用均值填充; 金融消费属性中涉及到的连续变量用0填充; 各类疾病涉及到的缺失值用0填充; 其他离散维度用-1填充。
[权利要求 8]
如权利要求2所述的糖尿病分析方法,其特征在于,所述连续变量的离散化包括:对连续变量进行等频或等宽分箱。
[权利要求 9]
一种应用服务器,其特征在于,所述应用服务器包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的糖尿病分析系统,所述糖尿病分析系统被所述处理器执行时实现如下步骤: 设置样本范围,包括用户范围和数据维度; 根据所设置的样本范围,获取相应的样本数据; 对所述样本数据中的各个数据维度与糖尿病或并发症的关系进行关联分析,其中,将是否患糖尿病或并发症作为关联规则的右项集,其他数据维度作为左项集;及 输出关联分析结果。
[权利要求 10]
如权利要求9所述的应用服务器,其特征在于,在进行所述关联分析之前,所述处理器还用于执行所述糖尿病分析系统以实现: 对所述样本数据进行预处理,包括缺失值处理和连续变量的离散化。
[权利要求 11]
如权利要求10所述的应用服务器,其特征在于,所述用户范围包括数据来源及采集时间、城市、年龄、性别;所述数据维度包括人口属性、用户是否患有糖尿病及并发症、健康以及非健康因子。
[权利要求 12]
如权利要求10所述的应用服务器,其特征在于,所述对所述样本数据中的各个数据维度与糖尿病或并发症的关系进行关联分析的步骤具体包括: 从样本数据中获取各用户患病情况,包括糖尿病及其并发症; 将是否患糖尿病或并发症作为关联规则的右项集,其他数据维度 作为左项集进行关联分析; 从结果中筛选出高提升度的规则,对应的左项集因子即为糖尿病或并发症的患病因子。
[权利要求 13]
如权利要求12所述的应用服务器,其特征在于,所述对所述样本数据中的各个数据维度与糖尿病或并发症的关系进行关联分析的步骤还包括: 按关联分析中找到的左项集因子对用户进行分类; 对每一类用户进行进一步深入的分析,计算各类用户患糖尿病几率,产生各种并发症几率; 比较各类用户的患病比例,找出糖尿病或并发症与不同的患病因子之间的病理关系,以及不同患病因子对于用户患上糖尿病或并发症的影响的强弱程度。
[权利要求 14]
如权利要求10所述的应用服务器,其特征在于,所述关联分析结果包括关联项集以及相应的支持度、置信度、提升度。
[权利要求 15]
如权利要求10所述的应用服务器,其特征在于,所述缺失值处理包括: 默认将有缺失的数据进行丢弃,若要保留包含缺失的数据,则先对缺失值进行填充;所述缺失值的填充方式包括: 人口属性和体检指标中涉及到的连续变量用均值填充; 金融消费属性中涉及到的连续变量用0填充; 各类疾病涉及到的缺失值用0填充; 其他离散维度用-1填充。
[权利要求 16]
如权利要求10所述的应用服务器,其特征在于,所述连续变量的离散化包括:对连续变量进行等频或等宽分箱。
[权利要求 17]
一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有糖尿病分析系统,所述企业推荐程序可被至少一个处理器执行,以使所述至少一个处理器执行以下步骤: 设置样本范围,包括用户范围和数据维度; 根据所设置的样本范围,获取相应的样本数据; 对所述样本数据中的各个数据维度与糖尿病或并发症的关系进行关联分析,其中,将是否患糖尿病或并发症作为关联规则的右项集,其他数据维度作为左项集;及 输出关联分析结果。
[权利要求 18]
如权利要求17所述的计算机可读存储介质,其特征在于,在进行所述关联分析之前,所述至少一个处理器还用于执行所述糖尿病分析系统以实现: 对所述样本数据进行预处理,包括缺失值处理和连续变量的离散化。
[权利要求 19]
如权利要求18所述的计算机可读存储介质,其特征在于,所述用户范围包括数据来源及采集时间、城市、年龄、性别;所述数据维度包括人口属性、用户是否患有糖尿病及并发症、健康以及非健康因子。
[权利要求 20]
如权利要求18所述的计算机可读存储介质,其特征在于,所述对所述样本数据中的各个数据维度与糖尿病或并发症的关系进行关联分析的步骤具体包括: 从样本数据中获取各用户患病情况,包括糖尿病及其并发症; 将是否患糖尿病或并发症作为关联规则的右项集,其他数据维度作为左项集进行关联分析; 从结果中筛选出高提升度的规则,对应的左项集因子即为糖尿病或并发症的患病因子。

附图

[ 图 1]  
[ 图 2]  
[ 图 3]  
[ 图 4]  
[ 图 5]