本文所致力于解决的问题为“摘取可能的医保欺诈记录”,而在解决问题的过程中最大的难点在于数据中有可能混杂着大量的虚假数据,对分析有着较大的影响。我们对问题进行了全面的分析,将问题化解为三个阶段,化繁为简进行分析。 首先,我们对研究对象进行了分类。我们查询了多份权威论文,对可选择影响因素进行了查找与筛选,具体涉及SPSS、利用excle中TABLEAU DESKTOP的大数据对数据处理软件。进行了整理、选择、分析,得到了年龄与医保消费最为相关的结论。然后,我们以年龄为自变量,套用样本选择模型、二部模型,并利用MATLAB对数据进行拟合、求解未知系数,并得到了最接近于正常消费的“费用—年龄关系”和“频率-年龄关系”。以此为基础,我们初步