文献综述
关联就是一个事件和其他事件之间依赖或关联的知识。而关联规则就是形如XY的逻辑蕴含关系。X为前件,Y为结果,且XY之间存在支持度、置信度(confidence)。关联规则的强度可以用它的支持度(support)和置信度(confidence)来度量。支持度确定规则可以用于给定数据集的频繁程度,而置信度确定YY在包含XX的交易中出现的频繁程度。
数据挖掘算法是根据数据创建数据挖掘模型的一组试探法和计算。算法使用此分析的结果来定义用于创建挖掘模型的最佳参数。然后,这些参数应用于整个数据集,以便提取可行模式和详细统计信息。
一、关联规则算法
典型的算法----Apriori算法
Apriori算法是一种用于关联规则挖掘(Association rule mining)的代表性算法,它同样位居十大数据挖掘算法之列。关联规则挖掘是数据挖掘中的一个非常重要的研究方向,也是一个由来已久的话题,它的主要任务就是设法发现事物之间的内在联系。
Apriori算法是非机器学习的数据挖掘技术,也就是说,我们并不会去建立这样一个模型,而是直接从原数据集入手,设法分析出隐匿在数据背后的某些信息或知识,这也是Apriori算法的一个特性。
在我们的日常生活中,存在着大量的交易,而这些交易产生的数据所产生的数据集,我们称之为购物篮交易(market basket transaction)。令I={i1,i2,⋯,id}I={i1,i2,⋯,id}是购物篮数据中所有项的集合,而T={t1,t2,⋯,tN}T={t1,t2,⋯,tN}是所有交易的集合。包含0个或多个项的集合被称为项集(itemset)。支持度(support)是指规则中所出现模式的频率,即XY在所有事件中出现的频率百分比,support(XY)= P(XY)。信任度是指蕴含的强度,即事务D中c%的包含X的交易同时包含XY。若X的支持度是support(X),规则的信任度为即为:support(XY)/support(X)。
支持度(ss:Fraction of transactions that contain both XX and YY)和置信度(cc:How often items in YY appear in transactions that contain XX)这两种度量的形式定义如下:
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。