快速高可扩展高阶统计机器学习方法文献综述

 2023-08-14 10:10:55
  1. 选题背景和意义:

近几年,越来越多的高阶数据开始出现在科学研究和实际应用的许多领域。比如,在神经科学领域,我们经常需要处理功能磁共振成像(fMRI)数据。fMRI是一系列的图片,因此可以看作是一个三阶的形如 时间 x 像素 x 像素 的数据。除此之外,在其他领域(比如视频分类) 我们还可能遇到更高阶的数据。这些高阶数据通常被称为张量或者高维数据。之前的许多机器学习算法或模型是针对于低阶数据,如向量和矩阵,而提出的。因此,如何处理这些高阶的数据是机器学习领域在近些年所需要面对的问题。

由线性回归引申而来,对于各种领域中的应用,我们通常需要针对张量数据解决回归问题,其中样本变量为张量,而数据标签为向量。在机器学习领域,之前已经有了一些解决张量回归的模型与算法。然而由于张量的维度很高,使用这些方法都存在着时间开销较大的问题。在这个毕业论文课题中,我将对之前的张量回归方法进行改进,并在此基础上提出能够快速解决大规模张量数据回归问题的方法。有了这个新的方法,在实际应用中我们可以节省大量的运算时间。这也为将张量回归算法和大数据结合起来提供了思路与方法。

文献综述(或调研报告):

之前已经有研究者基于CP分解[5]提出了一些张量回归的算法,如[1,2,3,4]。这些方法并没有选择直接对于系数张量进行限制,而是先使用CP分解将张量分解成许多个组成向量,然后对组成向量的结构进行限制。比如,[3]提出了一种名为GLTRM的模型。GLTRM先利用CP分解,然后把预测每个组成向量看做是一个解通用线性模型(GLM)的问题。每个子任务利用GLM解一个组成向量,最后组合成预测系数张量。此外,[2]限制了预测系数张量的稀疏性与低秩性并提出了orTRR方法。orTRR使用L2范数来获得稀疏性。然而由于L2范数只能做到变量收缩而不能完成变量选择,orTRR获得的解在稀疏性上表现并不好。最近,[1]基于分治法提出了SURF模型。SURF中每个子问题利用弹性网络(ElasticNet)来获得稀疏性。特别地是,SURF的论文中作者只是利用实际实验验证了SURF可以收敛,但是没有从理论上证明算法的收敛性。上述的方法和 一些其他的基于CP分解的方法都有一些缺点。在使用CP分解时,我们需要预先知道张量的分解阶数R,然而在实际应用中我们往往不知道R的具体值,这为模型带来了运算过程上的负担和预测解的不确定性。另外,R的值越大,这些方法的时间成本就会越高。

另外一些方法与上述 方法不同,它们选择直接对系数张量进行结构限制。比如,[6]提出了Remurs模型。Remurs同时使用 L1范数和核范数来限制张量使得其即稀疏又低秩。[7]在Remurs的基础上做出了改进,将核范数替换为了Tubal核范数[8,9]。这个新方法基于傅立叶变化来求解。然而,由于要处理一些不可导的范数,如L1范数或者核范数,这几个方法的时间复杂度较高。

在这两种张量回归的模型之外,还有一些其他的模型呗研究者提出用来解决其他关于张量数据的问题。比如,[10, 11]基于非参数假设,使用加和模型或者一些被贝叶斯方法(比如贝叶斯过程)来解决张量回归问题。此外,还有一些模型[12, 13, 14, 15, 16]被提出用来解决样本标签也同样是张量的回归问题。因为这些问题并不是我们这个毕业设计课题主要关注的问题,我将这些模型与算法排除在了讨论范围之外。

引用:

[1] He, L., Chen, K., Xu, W., Zhou, J., and Wang, F. Boosted sparse and low-rank tensor regression. In Advances in Neural Information Processing Systems, pp. 1009–1018, 2018.

[2] Zhou, H., Li, L., and Zhu, H. Tensor regression with applications in neuroimaging data analysis. Journal ofthe American Statistical Association, 108(502):540–552, 2013.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。