随着社会保险事业的不断发展和金保工程的深入应用, 在海量的数据面前,越发缺乏数据收集和统计的能力,无法对国家和省的宏观决策提供有力支持。而社会保障工作关系重大、政策性强。近年来,各级财政用于对养老保险资金的补贴不断上升,对于测算数据的收集以及数据的准确性和上报的及时性提出了更高的要求,再有各级政府对于社会保障体系中的社保制度、基金监管、宏观分析决策等方面也提出了更高要求。如目前有关提高退休年龄、提高养老保险统筹层次、特殊工种的提前退休、未来资金缺口等前瞻性问题,由于缺乏准确及时的信息统计上报及必要的量化分析,很难作出准确的决策, 近几年迅速发展起来的 数据挖掘技术将是实现这些目标的重要手段,金保工程中的数据挖掘主要是一种决策支持过程,主要基于人工智能、机器学习、统计学等技术,高度自动化地分析原有的数据,做出归纳性的推理,从中挖掘出潜在的模式,预测未来的趋势,帮助决策者调整策略,减少风险,做出正确的决策。
数据挖掘,又称数据库中的知识发现, 就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 数据挖掘是根据企业的既定业务目标和存在的问题,对大量的业务数据进行探索,揭示其中隐藏的规律,并将其模型化,指导并应用于企业的实际经营。
数据挖掘是一个从已知数据集合中发现各种模型、概要和导出值的过程,它是一个反复迭代的过程,综合当今对数据挖掘的认识,可以将数据挖掘过程分为以下几个步骤 :
( 1)确定分析和预测目标
进行数据挖掘,首先必须分析应用领域,包括应用中的各种知识和应用目标。问题定义了解相关领域的有关情况,熟悉背景知识,弄清用户需求。清晰地定义出业务问题。
在确定用户需求后,对现有资源(已有的历史数据)进行评估,确定通过数据挖掘技术,利用现有资源,能否解决用户的需求。在得到确定的答案后,再进一步确定数据挖掘的目标和制定数据挖掘计划。
( 2)数据准备
数据挖掘所处理的数据集通常不仅是海量数据,而且可能存在大量的噪声数据,冗余数据,稀疏数据或不完全数据等。解决数据的应用质量问题是数据挖掘的基础;充分利用有用的数据,清除无用的数据是数据挖掘的基础。
数据质量的高低直接影响数据挖掘结果的质量,进行数据准备,就是要避免“垃圾入、垃圾出”的做法。
( 3)建立模型
建立模型阶段是数据挖掘技术应用的关键阶段,有以下几个子步骤:
• 选择适用的数据挖掘技术:根据问题定义阶段所确定的问题,选择相应的数据挖掘技术。
• 建立培训数据和测试数据:对基础数据必须分为两部分,一部分是供模型建立的数据,另一部分是供模型建立后进行模型评估时用到的数据。
• 利用培训数据采用相应的算法建立模型:这个步骤就是采用相应的算法确定输出和输入的关系,即函数
一旦函数确定,便表示模型已建立。
• 模型解释:模型建立后必须对模型进行分析和解释,找出模型中的实际意义。
( 4)模型评估与检验
模型的评估包括两个方面即模型的可信度和兴趣度。
• 可信度:利用测试数据对模型进行测试,计算误差率,以确定模型的可信度。
• 兴趣度:数据挖掘可能发现成百上千个模式,对于给定的用户,许多模式并不是有趣的,它们表示公共知识或缺乏新颖性。
( 5)部署和应用
如果经过测试和检验,所建立的模型可信、并在预定的误差率范围内,那么,便可以按照这种模型计算输出值,并按照输出值确定决策的基本依据。这样就可以在企业范围内全面部署这个预测模型。
数据挖掘技术在金保工程中的主要应用领域和使用的相关技术大体如下:
( 1)参保单位或者人员的群体分析
结合参保单位或者个人的缴费方式、人员年龄结构,欠费情况等因素,归纳 形成不同的参加保险人员群体、如个体工商户、普通企业人员、机关事业人员、农民劳务人员等不同群体,制定适合其自身特点的相关政策,最大程度提高社会保险的覆盖面。提供差异化服务;也可以区分不同的退休人员群体,如提前人员,病退人员等,为预测各群体的增长和减少(死亡)速度提供基础,可以考虑使用数据挖掘中的判定树技术。
( 2)预测社会保险基金的支付能力
预测出未来一段时间内参加保险人员的变化以及社会保险基金的变化;退休人员支付基金的变化趋势,医疗保险支付和收入变化等趋势。做出未来资金缺口或者盈余的前瞻性分析,可以考虑使用数据挖掘中的线性回归和多元回归以及序列模式
( 3)参保单位欠费分析和防欺诈防瞒报
通过数据挖掘,总结各种骗保、欠费、瞒报少报行为的内在规律,并建立一套骗保、欠费和瞒报少报行为的规则库。当参保单位或者个人的缴费行为或者与该库中规则吻合时,系统可以提示相关部门采取措施,从而降低社保基金的损失风险。可以考虑使用数据挖掘中的聚类以及关联规则技术。
( 4)新参加保险人员的分析
使用数据挖掘中的有效的聚类和协同过滤方法(即用各种技术滤出信息,邻近分类、决策树等)识别新参加保险人员、各类病症发病人员等,将各信息关联到适合的信息群体。