文献综述
一、研究问题背景
目前成人与儿童的肥胖盛行率都在上升,且女性较男性更常发生。2015年,全球有6亿名成人(13%)和4200万名五岁以下的孩童有肥胖问题。在现代世界的许多地方(尤其是西方国家)受到污名化,尽管在历史上的其他时候,肥胖常被视为财富与多产的象征,并且在世界的某些地区仍然如此。2013年,包括美国医学会和美国心脏协会等数个医学会将肥胖定义为一种疾病[1]。
随着我国经济社会的发展,生活水平有所提高,不良生活方式一定程度上推动了了肥胖症在我国的发展,根据1985年到2010年的全国学生体质和健康调查显示,这25年的肥胖率变化呈直线上升。
二、国内外相关文献研究
研究影响少年儿童肥胖症的相关因素,首先需要掌握评价肥胖与否的方法。肥胖的常用评价方法包括身高标准体重法,身体质量指数法(BMI)、皮褶厚度法、水下称重法等[2]。BMI是国际比较通用的的判定人体肥胖程度的评价指标[3]。为了分析影响少年儿童肥胖症的相关因素,众多学者使用了多种科研方法,比如方差分析、回归分析、相关性分析等。
对于分类问题,可以使用logistic回归分析。Logistic回归模型最初由比利时数学家Verhulst提出,最初是为了研究人口数量的增长规律。随着对logistic回归模型不断深入的研究和发展,其不再仅仅局限于生态学种群预测的研究,已经成为了统计学理论中一种重要的概率分类模型。Logistic回归模型不同于一般地线性回归模型,当输入自变量后logistic回归输出的往往是分类变量的概率值,分类结果是离散的。由于这一特点,logistic可以进行分类预测。薛勇、陈云[4]等学者利用二元Logistic回归分析综合性地对学龄儿童超重和肥胖的因素进行了研究,结果显示儿童性别、家族超重史、家庭地域分布、早餐习惯、挑食、外出吃快餐、喝碳酸饮料以及每日静坐时间等与儿童肥胖具有相关性。也可以使用多分类Logistic回归分析,它适用于研究多分类变量与影响因素之间的关系。史祝梅利用多分类Logistic回归分析学龄前儿童体质综合评级的影响因素,研究了性别、城乡种类、胎龄、喂养方式、看护人、户外活动时间、户内看电视时间、父母受教育程度、父母每周锻炼次数这九个因素与学龄前儿童体质综合评级之间关系[5]。叶天新等使用ROC曲线评价了Logistic模型的性能[6]。对于一个二分类模型,其预测结果取决于输出的概率和分类的阈值,对于一个完全随机的二分类模型来说,其阈值就是0.5,大于0.5认为是正样本,小于0.5认为是负样本。对于改变阈值,往往会改变模型的预测能力,但往往预测正例正确的概率和预测反例错误的概率会同时升高。只有对正反例预测都比较准确的模型才是我们想要得到理想模型。ROC全称“受试者工作特征”曲线,源自敌机检测的雷达信号分析技术,后再上世纪六十年代广泛用于心理学、医学检测应用中当一个模型的ROC曲线完全被另一个模型的ROC曲线包含时,则代表后者的预测性能好于前者。
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。和Logistic回归分析方法类似,决策树也可以用于研究多分类因变量与影响因素之间的关系,而且决策树模型还可以清晰地显示出各个变量因素之间的关系。如Gazzinelli等应用决策树模型,分析了导致儿童二次感染血吸虫病的关键性影响因素,为血吸虫疾病的防治提供了重要依据[7],吕文娣等[8][9]也使用决策树对肥胖症建立了模型。
随机森林模型是对决策树模型的延伸,决策树模型在进行分类时是建立一棵树模型,并进行判别。随机森林模型则是建立大量的决策树模型,并得到这些决策树模型的投票结果,选择出现频数最大的结果作为随机森林模型得出的结论。相比决策树模型,随机森林有很好的泛化能力和抗干扰能力,不会出现过拟合的情况,对数据的要求也较低,在处理高维数据时有很好的表现。在使用随机森林模型时首先要选择合适的决策树模型。作为基础,在此之上生成大量的决策树并形成随机森林[10]。梁炉方[11]尝试将机器学习方法中的支持向量机、随机森林和多元统计和多元统计的向后剔除法结合起来对结肠癌基因数据进行分析,希望可以找出较少的致癌基因对癌症进行判别。随机森林可以计算每个特征对于分类的重要性,所以作者使用随机森林的方法对特征进行筛选。其计算出的特征重要性将受到噪声数据的影响,可能出现较重要的特征被噪声淹没的现象。所以为了减少噪声对结果的不良影响,在随机森林的基础上结合了多元统计中的向后剔除法思想,即重复建立随机森林,每次将特征变量重要性最小的一定百分比去掉,循环重复直到剩下所需要的特征。这个百分比的确定还应该将特征基数的影响考虑进去。最后再用随机森林筛选特征变量后再采用支持向量机判别。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。