未来智讯 > 大数据论文 > 大数据建模技术在人身保险反欺诈领域的应用路径分析

大数据建模技术在人身保险反欺诈领域的应用路径分析

发布时间:2019-04-26 11:51:56 文章来源:未来智讯    
一,引言随着大数据技术的蓬勃发展,特别是在Alpha Go击败李世石之后,他以国际象棋世界作为大师,以机器学习为基础的大数据建模成为最新的技术热点。 通过模型培训,机器智能化,代替劳动力,降低成本,提高效率和准确性,其众多优势和巨大的商业价值吸引了各行各业的商业巨头开始建立自己的人工智能系统,特别是腾讯。 阿里和百度等互联网公司在大数据资源方面具有明显的优势。 目前,基于人脸识别,语义识别,无人驾驶,智能风险识别,准确预测模型等大数据的新技术在商业应用中已经越来越成熟,并通过Internet +迅速传播到金融领域。 ,并已开始重塑甚至颠覆传统的业务和运营管理模式。 这种变化带来的竞争压力迫使银行和保险公司等金融机构迅速转型升级,并积极寻求自身业务与大数据和新技术的融合。 使用大数据建立准确的风险预测模型以提高风险识别的准确性和效率已成为具有操作风险的保险公司的有吸引力且有价值的切入点。
在整个国内保险业中,目前大数据建模技术的应用还处于探索和试验阶段。 总体而言,财产保险业必须在准确的风险识别模型的应用上向前迈进一步:一方面,行业信息的整合和共享更加到位。 2016年底,全国汽车保险反欺诈信息系统正式启动,为各类市场主体提供保险欺诈。 线索识别和风险预警功能初步实现了行业车险欺诈信息的交互共享; 另一方面,由于车辆保险的数据标准化程度较高,大数据建模的基础良好,因此一些国内财产保险公司正在进行车辆保险。 随后的审计通过构建大数据风险识别模型来协助审计取得了一定的成果。 以人寿保险和健康为对象,人寿保险更加复杂多样。 此外,中国的公民信息管理分散,数据标准化程度低。 因此,大数据在中国人寿保险风险管理和控制领域的应用仍然滞后。 只有少数保险公司尝试过创新。 本文以大数据建模技术在人寿保险反欺诈领域的应用为例,从业务场景选择,风险特征筛选,数据清理和排序,建模工具和算法选择,模型精度验证等方面入手。 详细解构了Spark计算引擎的路径和随机森林算法构建重大疾病保险承保欺诈风险评估模型,为大数据建模技术在保险风险管理领域的应用提供参考。 控制。 二,人寿保险大数据建模的基本情况分析(1)基本数据条件自1980年中国保险业复苏以来,经过30多年的快速发展, 2016年中国保险业的原保险保费收入已达3.10万亿统计与数据分析,计算机相关知识与机器学习等多维知识体系是企业,技术与数据相结合的高端人才。 这些人才的高标准以及对各行各业人才的强烈需求导致了相关人才的短缺。 目前,中国这类人才的供需紧张,供不应求。 根据2016年数据科学家的报告,大约三分之二的数据科学家已经开展业务不到五年,83%的公司和组织表示没有足够的数据科学家来解决这个问题。 随着互联网+大数据业务模式的巨大成功,越来越多的公司和组织正在投资数据,这种趋势可能会持续下去。
然而,需求刺激了供应。 中国数据科学家人才的巨大短缺导致了这种人力资源的高价格,这吸引了人才资源进入中国。 2016年,国内数据人才短缺与2015年相比有所改善,其中大部分属于引进外国专家或留学生; 国内大学,研究机构和各类企业也加快了这类人才的培养。 总之,国内寿险行业建立准确的反欺诈风险识别模型的数据条件,技术条件和人才条件已经到位。 还可以整合数据技术,重建传统的反欺诈管理模式,以提高人寿保险业务的效益。 三,基于实际反欺诈应用的大数据建模路径分析(一)业务场景选择模型的构建和应用必须基于具体的业务场景,它决定了模型 建立模型后的数据源范围,风险特征筛选,作业经验导入和具体应用方法,因此,需要在模型构建之前选择目标业务场景。 以下是从一个角度分析大数据模型适用于人寿保险反欺诈实践的业务场景:
1.选择业务类型。 按合同分类,保险业务可分为两类:个人业务和集团业务。 人寿保险公司在集团业务中可以获得的数据信息普遍不足,集团业务的议价能力较弱。 单一被保险人在集团业务中的反欺诈工作存在一定的障碍和困难。 因此,个人业务应成为个人保险公司反欺诈工作的重点。
2.选择保险类型。 从保险类型的角度来看,由于缺乏好运,储蓄类型的保险的高现金价值不太可能成为欺诈的目标,保险公司花费了大量的投入来模拟 产量很低; 虽然健康保险存在欺诈行为,但大多数都是基于软欺诈,涉及第三方(医疗机构)。 建立反欺诈控制费模型需要庞大的医学知识库和海量数据,这是困难和耗时的。 公司很难拥有相应的能力。 考虑到商业价值,代表性,实施可行性和数据质量等各种因素,重大疾病保险是一个理想的切入点。
3。 选择做行业联系。 考虑到保险公司业务风险管理和控制运营链和保险合同的整个生命周期,承保和理赔两个方面是保险公司风险管理和控制链的两个核心环节之一。 它是构建和应用反欺诈风险识别模型的理想业务链接。 基于以上考虑,本文以个人业务重大疾病保险承保阶段的大数据反欺诈模型为后续讨论的依据。
(2)风险特征选择
大数据预测模型与相应的业务紧密相关。 对于保险公司而言,大数据反欺诈模式的表现是好还是坏,相关业务风险特征的选择是最基本也是最重要的工作。 它依靠保险业务风险管理业务专家对实际业务有深入了解,并协同数据科学家进行精细筛选。 只有与欺诈结论密切相关的业务风险特征字段才能置于预选范围内,以便进行后续的建模过程; 如果在初始阶段省略了一些关键业务信息,模型的影响将受到严重影响。 以重大疾病保险承保阶段的风险管理和控制业务情景为例。 在构建大数据反欺诈模型时,这种保险信息,客户历史信息,销售人员/渠道信息以及外部重要风险信息应该是四个主要考虑因素。 基于上述维度,可以进一步筛选风险特征。 一个简单的例子如下:除了可以直接从保险公司内外获得的风险数据特征外,数据科学家还经常根据数据相关等因素构建一些衍生特征,以便用较低维度替换它们。 以及更多相关功能。 原始功能简化了模型并提高了效率。 这也是保险公司建模实践中非常重要的一步。
(3)数据清理和整理
根据预先选择的数据特征,需要对数据和数据清理进行基本分析。 通过对数据基础的分析,数据科学家可以对数据的质量进行全局控制,以及特征与标签值之间的相关性(标签,无论是欺诈)。 性,为上面提到的派生特征添加工作基础。 数据清理和排序可以保证模型训练数据的数据质量。 结合模型算法的选择和进行适当的数据格式转换可以提高模型的效率。 有几种方法:缺失值填充,维度统一,离散连续值转换,信息冗余值处理等。
(d)建模工具选择如上所述,大数据建模技术的兴起 为行业提供各种建模工具和语言选择。 在少量数据的基础上,您可以考虑在R语言或Python语言独立开发环境中构建模型; 对于熟悉SAS等传统工具的企业,可以在原有基础上扩展和扩展大数据; 目前基于大数据的主流建模工具是由加州大学伯克利分校AMP实验室完成的。(加州大学伯克利分校的AMP实验室)是由通用并行框架Spark开源的。 Spark ML是Spark的机器学习库,支持回归,分类,协同过滤,聚类和其他算法。 一些算法支持流媒体训练,并提供用于在spark2.0上保存和调用模型文件的界面。 ,提供了实施该模型的基础。 对于拥有大量数据的保险公司而言,Spark ML是一种合适的工具,可以为承保风险建立大数据保险模型。
(5)建模算法选择本文选择的业务场景是个人业务重大疾病保险承保阶段的欺诈风险评估,可以作为数据分类问题,识别欺诈案例 标签值为1.非欺诈案件被确定为0.目前,更主流的两种分类算法是:支持向量机(SVM),决策树,梯度下降树,随机森林等。 随机森林与其他算法相比具有以下优点:1。实施相对简单;
2.具有良好的抗噪能力,配合风险低;
3高维数据处理能力,可同时处理离散和连续数据; 4。 快速的培训速度,可快速获得变量重要性排序;
5。 在训练期间实时检测变量相互影响;
6.适合并行计算。
当保险公司选择算法时,应考虑整体业务场景,数据大小和项目进度时间要求。 一般来说,随机森林更适合作为大型保险公司重大疾病保险承保阶段欺诈风险评估模型的建模算法。 (6)建设模型构建大数据欺诈风险准确评估模型是一个迭代过程,主要分为培训和测试两个阶段。 训练阶段主要使用训练集数据根据不同的算法和选择的参数进行模型的初步拟合。 测试阶段是通过测试集数据和评估指标从数据中验证模型,并根据验证结果选择调整模型参数。 训练或输出最终结果。 参数的选择是模型构建过程中的关键步骤。 本文使用Spark ML提供的超参数网格和交叉验证来自动选择参数。 模型的验证标准选择两类评估中的Auc值。 从0到1的十进制数表示值越大,模型越好。 考虑选择随机森林算法作为示例,最终模型结果是N个决策树的组合。 每棵树的特征在于从特征池中随机选择的M个变量。 随机森林中种植决策的具体数量需要数据科学家和保险业务专家的综合模型的数据库和业务目标来确定。 整个模型使用每个决策树分数的平均值作为对最终案例欺诈风险的评估。估值,命名为F(欺诈)值(可以理解为欺诈概率的概率)。 该值是0到1之间的小数,越接近1,欺诈风险就越大。 (7)模型性能验证基于大数据基础,个人业务重大疾病保险承保阶段欺诈风险评估模型可投入生产环境并投入实际应用,需要详细 和详细的绩效评估。 目前可用于行业模型评估的两个主要评估指标是精确度/精确度和召回/召回。 要理解这两个指标,我们必须首先了解以下数据分类矩阵。 混淆矩阵数据可以根据实际和预测的不同结果分为四类:
▷真阳性(TP):角色是相反的角色,模型被预测为负面角色
假 阳性(FP):角色是正面角色,模型被预测为负面角色
▷真阴性(TN):角色是积极的人,模型被预测为积极的人▷假阴性(FN):字符是相反的字符,模型被预测为正字符
精度精度/准确度计算为所有预测负字符中模型的正确预测的比率 ,即TP(/ TP + FP); 召回召回率/召回率计算公式:在所有原始负面特征中,模型正确预测了比例,即TP /(TP + FN)。 可以看出,在选择高准确率和高召回率之间总是存在折衷,这通过调整F值的阈值大小来确定欺诈来实现。 阈值的大小取决于构建模型的最终目标。 在某些情况下,高精度的选择可能比高召回率更好。 然而,对于欺诈预测模型,即使牺牲一些准确性,它通常也会偏向高召回率。 四,大数据模型在保险公司反欺诈实践中的应用
(1)模型反欺诈业务场景嵌入大数据准确风险评估预测模型价值实现具体 业务受到严格限制,业务场景之外的模型无法创造价值。 本文以重大疾病保险承保欺诈风险评估模型的具体应用为例,简要说明该模型的应用方式。
1.将模型固化为即插即用系统功能模块,可以快速有效地捕获保险公司数据仓库中的风险概况数据;
2。 将模型嵌入保险公司的自动化承保业务系统对所有重大医疗保险申请进行全业务风险扫描,并输出模型计算的欺诈风险评估结果的F值;
3.保险公司的操作风险管理专家根据承保业务的经验进行开发。 F值的应用规则,具有较低F值的应用程序的自动承保如果F值较高,请进入人工承保工作池并识别风险警告;
4.承保经营者应参照F值和相应的风险警示,审查进入人工承保工作池的保险申请。 必要时,可以采用进一步的风险控制措施,如体检和合同调查;
5。 持续观察模型的应用效果。 当模型的准确度和召回率达到更理想的状态时,请考虑比例或全部替换。 手工工作,进一步降低了保险公司的运营成本。 此外,对于不需要嵌入工作流程或具有较少时间敏感性要求的业务场景,还可以设想以逐个批处理的方式应用模型以帮助开发业务。
(2)模型的迭代改进
模型的后续迭代和改进是一个长期过程,在下列情况下应考虑模型迭代:
1。 新的重要性模型的风险特征或原始风险特征被新特征所取代:可以通过利用外部数据补充或业务视角分析大量更好的特征变量来迭代模型。
2.业务规则发生了重大变化:当业务规则发生变化时,为了适应新的业务场景,模型需要完全迭代,甚至理解为重建。
3.循环的迭代:模型依赖于数据。 随着数据的积累,模型应迭代迭代以确保其性能。 可以考虑按数据增量或时间段的百分比进行迭代。 。
无论模型迭代的原因如何,都需要根据准确性和召回率重新评估模型的性能。 必要时,旧模型和新模型需要同时在线。 一段时间后,切换模型。
五,概述保险欺诈是一种顽固的疾病,自保险业诞生以来从未完全治愈,严重威胁着保险公司的健康发展,信息不对称造成的博弈状态巨大 保险本身很强大。 射击是保险欺诈难以禁止的重要原因。 由于保险的自然属性难以改变,因此通过尽可能消除保险公司与被保险人和被保险人之间的信息不对称,是预防和控制保险欺诈的主要方式。 通过商业调查消除信息不对称虽然有效,但投资大,时间长,成本高,不应作为每种业务的通用方法,因此保险公司需要探索一种有效且廉价的方式进行业务风险扫描, 筛选出高风险企业,专注于预防和控制。 近年来,随着互联网+大数据的实际生产力逐渐渗透到保险业,大数据建模技术得到越来越多的应用,虽然尚未成熟,但其方向已经确定。 。 将大数据建模技术应用于个人保险和反欺诈领域是保险业务和先进技术的创新组合。
本文探讨了人寿保险公司在数据,技术,人才方面的大数据建模三个条件。 此外,以大数据建模技术在人寿保险反欺诈领域的应用为例,详细解构了基于Spark计算引擎和随机森林算法构建重大疾病保险承保欺诈风险评估模型的路径。 模型在实际业务中的嵌入以及相应的迭代和改进方法。 当然,由于作者的能力有限以及某些客观条件的局限性,本文的研究还存在一些不足之处,如模型风险特征的具体讨论,算法间模型性能的比较, 实施模型着陆和迭代等等,这些都取决于实践的进一步深化,以丰富和完善。 展望未来,深化大数据建模技术与人身保险的合作。 随着技术能力的不断提高,信息技术将协助保险业在更高层次上解决各种业务问题,同时确保准确性。 同时,降低运营成本,帮助保险业创造更健康,更美好的明天。
转载请注明来源。原文地址:https://www.7428.cn/page/2019/0426/86825/
 与本篇相关的热门内容: