糖尿病项目 源码
客观的 这是一个分析1999-2008年间美国130家医院的住院率的项目。 假设 诊断医院的数量,程序的数量,住院探访的次数,换药的次数以及急诊的次数与医院的再入院率相关。 步骤1获取数据 下载单个数据集后,我使用excel删除了不会使用的变量。 付款人的代码和权重是有趣的变量,但由于缺少大量数据而被移动。 然后,我检查了SAS 9.4中的变量类型。 步骤2资料清理和处理 我检查了无效的字符值和缺少的数据。 然后,我寻找了超出范围的数据。 我检查了无效的数值和缺少的数据。 我检查了是否需要转换任何数据类型。 最后,我检查了变量范围。 我寻找重复的值和重复的值。 race变量缺少数据的水平很高,