时空算法库
Ⅰ 算法的正确性、健壮性、易读性、时空性怎么评价
评价算法的四个标准:
1.正确性
能正确地实现预定的功能,满足具体问题的需要。处理数据使用的算法是否得当,能不能得到预想的结果。
2.易读性
易于阅读、理解和交流,便于调试、修改和扩充。写出的算法,能不能让别人看明白,能不能让别人明白算法的逻辑?如果通俗易懂,在系统调试和修改或者功能扩充的时候,使系统维护更为便捷。
3.健壮性
输入非法数据,算法也能适当地做出反应后进行处理,不会产嫌或生预料不到的运行结果。数据的形式多种多样,算法可能面临着接受各种各样的数据,当算法接收到不适合算法处理的数据,算法本身该如何处理呢?如果算法能够处理异常数据,处理能力越强,健壮性越好。
4.时空性
算法的时空性是该算法的时间性能和空间性能。主要是说算法在执行过程中的时间长短和空间占用多少问题。
算法处理数据过程中,不同的算法耗费的时间和内存空间是不同的。
(1)时空算法库扩展阅读:
算法是对特定问题求解步骤的一种描述,它是指令的有限序列,其中每一条指令表示一个或多个操作。芹者伍此外,一个算法还具有下列5个重要的特性。
(1)、有穷性
一个算法必须总是(对任何合法的输入值)在执行有穷步之后结束,且每一步都可在有穷时间内完成。
(2)、确定性嫌圆
算法中每一条指令必须有明确的含义,读者理解时不会产生二义性。即对于相同的输入只能得到相同的输出。
(3)、可行性
一个算法是可行的,即算法中描述的操作都是可以通过已经实现的基本运算执行有限次来实现的。
(4)、输入
一个算法有零个或多个的输入,这些输入取自于某个特定的对象的集合。
(5)、输出
一个算法有一个或多个的输出,这些输出是同输入有着某种特定关系的量。
Ⅱ 空间聚类算法简述
空间数据聚类算法主要包括四大类:(1)给予划分的聚类;(2)基于层次的聚类;(3)基于密度的聚类;(4)基于网格的聚类。时空数据聚类算法是空间数据聚类算法的验身,它将时许维度纳入聚类计算中。
1.1基于划分的空间聚类算法
k-means算法 :用户定义k个簇的质心位置——将每个数据点聚合到与之最近的质心所在的簇——重新为每个簇计算质心所在位置——重复步骤二和三直到质心收敛。其计算复杂度为 ,T为步骤四中迭代次数,他对于用户给定的簇中心点的初始位置和噪声点非常敏感。同时,在处理海量数据的时候运行时间较长。
1.2基于层次的空间聚类算法
层次聚的目的是将数据对象分配到一个层次结构中,它遵循两种剧本策略:向上凝聚和向下分裂。向上凝聚方法将每一个对象看做独立的簇,然后从整个层次结构的底层开始对具有相似特征的簇聚合,逐层递归至顶层。相反,向下分裂方法把所有的数据对象看做同一个簇,然后从整个层次结构的顶层开始,对具有不同特征的簇进行分裂,逐层递归至底层。其计算的事件复杂度是
1.3基于密度的空间聚类算法
基于茄竖密度的聚类算法在发现任意形状和数据造成方面具有独特的优势,且不要求对簇的数量进行初始设置。其算法包括:DBSCAN算法,OPTICS算法,DENCLUE算法,CURD算法,Incremental DBSCAN算法,SDBDC算法,ST-DBSCAN算法等。DBSCAN是第一个被提出的基于密度的聚类算法。而密度主要通过两个基本参数进行定义:空间半径 和密度阈值MinPts.
DBSCAN基本概念:
算法的主要缺点是它的运算时间复 ,因此对海量空间数据的聚类过程需要经过一个无法忍受的耗时。它的另一个缺陷是无法支持多密度聚类埋枝、增量聚类和并行计算。许多工作针对这些问题进行了研究他们可以被概括为两大类工弯纳敏作:⑴算法改进;(2)算法并行化。传统的改进方法采用空间索引技术来快速锁定数据对象。GirDBSCAN被称为最先进的DBSCAN算法它基于网格划分策略极大的减低了算法的时间复杂度,且没有计算精度损失。得益于网格的超规则空间结构,任意两个格子之间的最短空间距离可以很容易被获取。对于任意点 ,其关于 的近邻点只存在于一个固定的格子集合范围内;换言之,那些格子集合范围外的点一定不是其的近邻点,因此这些点与点 之间的距离计算可以被省略,从而提高DBSCAN算法的计算效率。基于这个想法,Gunawan将整个网格划分为以 为边长的正方形格子,用于2维空间数据的基于密度聚类计算,使得每个正方格子内的最大空间距离为因此一旦格子内的点的数量达到或超过MinPts,则该格子里的所有点都是核心点,且属于同一个簇。因此一个簇可以通过密度相连格子和密度可达格子的最大集合进行计算,从而省略了许多点与点之间的距离计算。同时采用了Voronoi图技术,进一步改进了DBSCAN算法的运算效率。但是,构建一个Voronoi图本身需要消耗大量的时间。基于这个想法,Gan和Tao提出了一种关于p近似DBSCAN算法来获得近似精度的计算结果,但只需要关于N的线性计算时间,用于取代传统的DBSCAN算法。
1.4基于网格的聚类
基于网格聚类算法将数据空间划分为规则的互不相交的格子,再将所有的数据对象映射带网格中基于格子进行聚类。总结一下就是:将对象空间量化为有限数目的单元,形成一个网状结构,所有聚类都在这个网状结构上进行。
我们将学习一下STING算法以及CLIQUE算法。