optics算法

发布时间: 2022-05-05 14:02:55

‘壹’ 聚类的计算方法

传统的聚类分析计算方法主要有如下几种：
1、划分方法(partitioning methods)
给定一个有N个元组或者纪录的数据集，分裂法将构造K个分组，每一个分组就代表一个聚类，K<N。而且这K个分组满足下列条件：（1）每一个分组至少包含一个数据纪录；（2）每一个数据纪录属于且仅属于一个分组（注意：这个要求在某些模糊聚类算法中可以放宽）；对于给定的K，算法首先给出一个初始的分组方法，以后通过反复迭代的方法改变分组，使得每一次改进之后的分组方案都较前一次好，而所谓好的标准就是：同一分组中的记录越近越好，而不同分组中的纪录越远越好。使用这个基本思想的算法有：K-MEANS算法、K-MEDOIDS算法、CLARANS算法；
大部分划分方法是基于距离的。给定要构建的分区数k，划分方法首先创建一个初始化划分。然后，它采用一种迭代的重定位技术，通过把对象从一个组移动到另一个组来进行划分。一个好的划分的一般准备是：同一个簇中的对象尽可能相互接近或相关，而不同的簇中的对象尽可能远离或不同。还有许多评判划分质量的其他准则。传统的划分方法可以扩展到子空间聚类，而不是搜索整个数据空间。当存在很多属性并且数据稀疏时，这是有用的。为了达到全局最优，基于划分的聚类可能需要穷举所有可能的划分，计算量极大。实际上，大多数应用都采用了流行的启发式方法，如k-均值和k-中心算法，渐近的提高聚类质量，逼近局部最优解。这些启发式聚类方法很适合发现中小规模的数据库中小规模的数据库中的球状簇。为了发现具有复杂形状的簇和对超大型数据集进行聚类，需要进一步扩展基于划分的方法。
2、层次方法(hierarchical methods)
这种方法对给定的数据集进行层次似的分解，直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。例如在“自底向上”方案中，初始时每一个数据纪录都组成一个单独的组，在接下来的迭代中，它把那些相互邻近的组合并成一个组，直到所有的记录组成一个分组或者某个条件满足为止。代表算法有：BIRCH算法、CURE算法、CHAMELEON算法等；
层次聚类方法可以是基于距离的或基于密度或连通性的。层次聚类方法的一些扩展也考虑了子空间聚类。层次方法的缺陷在于，一旦一个步骤（合并或分裂）完成，它就不能被撤销。这个严格规定是有用的，因为不用担心不同选择的组合数目，它将产生较小的计算开销。然而这种技术不能更正错误的决定。已经提出了一些提高层次聚类质量的方法。
3、基于密度的方法(density-based methods)
基于密度的方法与其它方法的一个根本区别是：它不是基于各种各样的距离的，而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。这个方法的指导思想就是，只要一个区域中的点的密度大过某个阀值，就把它加到与之相近的聚类中去。代表算法有：DBSCAN算法、OPTICS算法、DENCLUE算法等；
4、基于网格的方法(grid-based methods)
这种方法首先将数据空间划分成为有限个单元（cell）的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快，通常这是与目标数据库中记录的个数无关的，它只与把数据空间分为多少个单元有关。代表算法有：STING算法、CLIQUE算法、WAVE-CLUSTER算法；
很多空间数据挖掘问题，使用网格通常都是一种有效的方法。因此，基于网格的方法可以和其他聚类方法集成。
5、基于模型的方法(model-based methods)
基于模型的方法给每一个聚类假定一个模型，然后去寻找能够很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在的假定就是：目标数据集是由一系列的概率分布所决定的。通常有两种尝试方向：统计的方案和神经网络的方案。
当然聚类方法还有：传递闭包法，布尔矩阵法，直接聚类法，相关性分析聚类，基于统计的聚类方法等。

‘贰’ 光学傅立叶变换和计算机快速傅立叶变换各有什么优缺点

傅立叶变换分为：
连续傅立叶变换；
离散傅立叶变换；
这两种变换应用到计算机中都有一种近似的快速数值算法，叫做快速傅立叶变换。

具体的理论推导这里也说不清，我也有点忘了。这个你可以在数学分析、信号与系统等学科的教材里找到。

你所谓的光学傅立叶变换应该就是一般的没有经过优化近似的傅立叶变换，而且应该是连续的，即“连续傅立叶变换”。

而计算机领域，尤其是信号处理领域，你因该知道计算机处理的数据都是离散的，如果你学过数值计算，就知道计算机都是用离散来逼近连续函数的。

所以计算机的信号处理领域多是用离散傅立叶变换，而且由于计算机要求实时处理，要快，所以又发明了一种快速算法。所以就是“快速离散傅立叶变换”。

‘叁’ optics算法中可达距离怎么理解，其大小对聚类是有事么影响急急急急

当两个点p,q的可达距离为d的意思就是：当p或者q为核心对象，并且邻域参数\epsilon大于等于d时，p与q是直接密度可达的。对聚类的大小没有影响，它是一个中间值，可以帮助选择合适的\epsilon值。它是对DBSCAN的一个改进，DBSCAN需要两个参数minpts和\epsilon，为了找到适合的聚类需要测试大量的参数，而OPTICS则只依赖于minpts，同时处理小于当前邻域的所有邻域值，而只需要O(nlogn)，提高了效率。你看一下jiawei han的《data mining》里面的dbscan和optics，讲的更加详细

‘肆’ 请问机器视觉与光学有关，学光学想了解一下这方面的知识，难道机器视觉只是涉及电路和算法

没有吧。机器视觉也算是一个涉及邻域比较多的行业了。涉及到的科学有计算机图形图像学、电子、几何光学、机械、信号与通信、软件工程等多个方面。而且，机器视觉行业里，可以从事的工作也有非常多的类型，做的产品也非常多。如做相机的、做镜头的、做光源的、搞软件的，这些对人员的知识要求也不一样。如果想了解更多，可以网络石鑫华视觉网了解更多知识。

‘伍’ 光学+算法，透雾技术还能走多远

作为安防行业的排头兵，视频监控的首要问题就是要突破“看得见”的瓶颈，达到“看得清”的境界。面对雾霾这一棘手问题，安防人始终在不断努力和探索中。目前主要有两种方式来解决雾霾、雾气环境下的透雾应用，一是通过算法的方式，提升图像的清晰度、色彩饱和度;二是通过光学透雾方式，实现雾霾、雾气的穿透。两种方式实现的原理是不一样的，前者的本质是图像的二次处理，是一种算法矫正;后者是通过物理的方式，通过光学成像的原理提升画面清晰度。
在数字透雾兴起之前，边防、海防、森林高空监控、城市高空了望等场合的应用，只能通过光学镜头吸收红外线的方式来增强图像的清晰度，从而满足这些容易出现水汽、雾气、雾霾场合的监控使用。但是，光学透雾镜头价格昂贵，综合造价成本高不说，效果也不一定能切实满足使用需求。
高清成像，还需层层抽丝剥茧
在数字透雾兴起之前，边防、海防、森林高空监控、城市高空了望等场合的应用，只能通过光学镜头吸收红外线的方式来增强图像的清晰度，从而满足这些容易出现水汽、雾气、雾霾场合的监控使用。但是，光学透雾镜头价格昂贵，综合造价成本高不说，效果也不一定能切实满足使用需求。
作为安防行业的排头兵，视频监控的首要问题就是要突破“看得见”的瓶颈，达到“看得清”的境界。面对雾霾这一棘手问题，安防人始终在不断努力和探索中。目前主要有两种方式来解决雾霾、雾气环境下的透雾应用，一是通过算法的方式，提升图像的清晰度、色彩饱和度;二是通过光学透雾方式，实现雾霾、雾气的穿透。两种方式实现的原理是不一样的，前者的本质是图像的二次处理，是一种算法矫正;后者是通过物理的方式，通过光学成像的原理提升画面清晰度。
由于两者本质的不同，因此，在测试中，虽然两者均为安防监控摄像机的透雾技术，但测试重点还是不一样的。
对于采用数字透雾技术的摄像机，主要是通过模拟雾霾场景来检测，即让图像变得模糊即可，然后观察开启与关闭透雾功能时，观察摄像机的表现如何，透雾效果是否显现出来。其次是仿真模拟雾霾环境进行测试，这就不得利用一切条件创造烟雾、水汽环境，然后观察透雾效果的表现。由于数字透雾技术是算法智能化之一，因此还要观察摄像机在无雾条件下，开启“透雾”功能后，摄像机是否继续“除雾”，以检验其智能化效果。而针对光学透雾摄像机，则主要是通过仿真雾霾、水汽、烟雾环境进行仿真测试，以观察摄像机的红外接收能力和图像处理除雾效果如何，是否达到了良好的透雾使用表现。光学透雾是采用物理方式的透雾技术，因此不进行图像模糊方式进行检验。
针对光学透雾技术，还需要检验是否支持彩色除雾应用。当然，除了透雾功能外，本次也会就摄像机的画质、网络控制等功能进行检测，以给读者一个全面的设备性能展现。
透雾技术方法论
关于透雾摄像机，a&s已经做过不少检测，也在不断接触、评测中，见证了透雾摄像机的发展。以目前的行业发展水平，透雾技术无外乎三种：
·图像算法透雾处理;
·镜头光学透雾;
·滤波片光学透雾。
关于算法透雾技术，最早是在国际品牌产品中出现，如三星的百万高清摄像机，随着2012年海康威视推出了130万明星级SMART摄像机后，支持算法透雾技术的摄像机如雨后春笋般涌现，而且算法透雾效果也是越来越好。
但数字透雾技术有很大的局限性。由于数字透雾(也叫除雾功能，与工程实际应用中的设备加热除雾气是两个不同概念)是通过算法的智能化处理，当图像出现朦胧化效果时，自动调节锐度、图像对比度、色度等方式，将朦胧画面调节至更为适于观看的效果。数字透雾的优势是保住了图像的彩色细节，并增强了可看度，但实际上，图像的清晰度是没有提升的。而这也是成本最低、最为普及的一种透雾应用方式，目前主流监控设备商所开发的中高端监控产品，几乎都支持了数字透雾处理功能。
已知的透雾算法大致可以分为两大类：一种是非模型的图像增强方法，通过增强图像的对比度，满足主观视觉的要求来达到清晰化的目的;另一种是基于模型的图像复原方法，它考查图像退化的原因，将退化过程进行建模，采用逆向处理，以最终解决图像的复原问题。
为了得到更好的处理效果，摄像机厂家会增设专门的图像处理芯片，可自动侦测图像的密度，最大限度地保持图像信号的细节，实现彩色增强、反差增强、边缘增强、对比度增强和亮度增强，并进行密度分割、去模糊等运算，使不同场景下的摄像画质得到明显提高，达到透雾的目的。而根据厂家的能力与研发选择，会分别选择在DSP或FPGA等不同芯片上进行相应处理。
芯片会实时读取视频流信息，通过对比参数判定是否需要开启透雾模式，也就是可以达到自动侦测雾气，甚至可以通过设定的预置模式判定出雾气浓淡，选择进入相应的透雾模式。不过，从目前的应用效果看，能够支持到自动判断图像是否有“雾”、浓度多少的摄像机不多，大部分都还是依靠手动开启、关闭的方式。
而数字透雾技术，由于采用的是算法处理技术，也不再仅仅限于摄像机，目前已经延伸到后端，如透雾显示器/监视器、透雾DVR、透雾NVR等，让透雾应用变得更为广泛，也满足了目前透雾产品线不全或原有设备不支持透雾技术的后端升级应用。
接着说光学透雾。光学透雾利用的是光的不同波段有不同的特性这个特点原理来实现的，自然光由不同波长的光波组合而成，波长从长到短分别是红橙黄绿青蓝紫七种颜色，其中波长小于390nm的叫做紫外线，波长大于780nm的叫做红外线。红外线波长较长，在传播时受气溶胶的影响较小，可穿透一定浓度的雾霭烟尘，实现准确聚焦，这就是光学透雾的依据。
采用镜头的方式，就是在镜头处增加了IR感知能力，让更多的红外线传达到传感器上。该技术是不分时段、不分场合的“开启”透雾模式，且无论是彩色模式还是夜间模式，都能较非透雾镜头获得更多的有效光线，从而辅助摄像机实现更为优良的清晰度效果。当然，透雾镜头还需要解决一个问题，那就是可见光与红外非可见光在任意光照环境下，均可准确的聚焦到同一个点上，只有这样，才能确保成像的高清，否则将会出现虚焦，这也是透雾镜头的一个必要的技术难点。
由于采用镜头作为光学透雾方式的成本较高，难以在很多场合中普及，因此不少监控设备商一直都在寻求新的解决方案。2013年下半年，宇视科技率先突破了这一技术瓶颈，通过采用滤光片的方式来实现光学的透雾应用，这是安防的一个创新方案。其实现的原理为，当将摄像机切换到光学透雾模式时，摄像机将自动切换透雾滤光片，让摄像机过滤并吸收红外线，从而实现清晰度的大幅提升。此类光学透雾技术，对镜头的要求则下降了许多，只要是满足摄像机正常监控使用的镜头都可适用。当然，对镜头要求支持IR红外矫正功能是必不可少的，而目前的高清镜头，几乎清一色地支持IR矫正功能，由此可以说，采用滤波片的光学透雾摄像机，基本可以排除对镜头的特殊依赖性。
透雾技术再升级
经过了数年的发展，透雾技术也随着监控技术的发展而不断得到优化和提升，首先是数字透雾技术的优化;其次是光学透雾方案的创新。下面我们就来介绍一下a&s安防自动化于7月测试的两款分别代表了当前数字透雾和光学透雾的产品为例进行介绍。
数字透雾效果明显优化
大华DH-IPC-HFW8331D-Z系列300万像素超宽动态红外透雾型摄像机采用的即是数字透雾的方式。大华自从在摄像机中引入数字透雾技术后，一直保持着自己的特色，其产品支持自动和手动可调的方式来处理图像的模糊情况。而在手动模式下，分别可对透雾强度、大气模式可调，以增强“除雾”效果。
大华DH-IPC-HFW8331D-Z系列300万像素超宽动态红外透雾型摄像机采用的即是数字透雾的方式。大华自从在摄像机中引入数字透雾技术后，一直保持着自己的特色，其产品支持自动和手动可调的方式来处理图像的模糊情况。而在手动模式下，分别可对透雾强度、大气模式可调，以增强“除雾”效果。
大华DH-IPC-HFW8331D-Z系列300万像素超宽动态红外透雾型摄像机采用的即是数字透雾的方式。大华自从在摄像机中引入数字透雾技术后，一直保持着自己的特色，其产品支持自动和手动可调的方式来处理图像的模糊情况。而在手动模式下，分别可对透雾强度、大气模式可调，以增强“除雾”效果。
从实测效果看，该机在自动模式下，即能将透雾效果处理得跟手动模式下的最佳效果一致，自动处理算法还是比较靠谱、智能化的。但这还不是该机的亮点，其优势是，虽然为数字透雾处理，但画面的“去雾”效果明显，在保持彩色画面不变的情况下，可将除雾的效果较之前有了很好地提升，经处理后，朦胧的画面上，“雾”的存在感很低，取而代之的是清爽、通透的画面。这也看出，该机不仅仅是简单的图像增强，更是在透雾算法方面的智能化提升。
光学透雾技术再突破
过去，国内品牌中，唯有宇视一家提供有非镜头的光学透雾技术方案产品;海康威视过去则是清一色的数字透雾产品。此次检测的海康威视DS-2CD4026FWD/D星光级200万超宽动态专业透雾型枪型网络摄像机，则是海康威视光学透雾监控摄像机的首次亮相。该机采用了滤波片的方式来吸收红外光线，从而获得更为清晰的图像效果。
该设备支持双透雾模式，即数字透雾和光学透雾，该机采用了全智能处理方式，一键开启或关闭，不提供透雾等级调节功能。在实测中，该机的数字透雾有着不错的表现，除了能保持彩色的画面效果外，画面的清晰度、色彩都有不错的提升。但最佳的效果在于透雾技术，根据设计要求，该机的光学透雾需在夜间模式下才能获得最佳的效果;但实测中，在白天模式下开启光学透雾功能，其效果要较数字透雾模式下所得的画面更为清晰;而在开启夜间模式时，画面则干净、整洁，很难察觉到画面有“雾气”存在。可以这么说，该机可实现的透雾方式有：数字透雾、彩色模式下的光学透雾、黑白模式下的光学透雾，所得到的透雾效果，也是层层递进，并以黑白模式下的光学透雾表现最佳。作为一款主打光学透雾的摄像机，该机除了采用物理方式增强清晰度外，也提供了算法辅助，从而让光学透雾技术得以更大程度的发挥和展示。
海康威视摄像机可实现的透雾方式有：数字透雾、彩色模式下的光学透雾、黑白模式下的光学透雾，所得到的透雾效果，也是层层递进，并以黑白模式下的光学透雾表现最佳。作为一款主打光学透雾的摄像机，该机除了采用物理方式增强清晰度外，也提供了算法辅助，从而让光学透雾技术得以更大程度的发挥和展示。
海康威视摄像机可实现的透雾方式有：数字透雾、彩色模式下的光学透雾、黑白模式下的光学透雾，所得到的透雾效果，也是层层递进，并以黑白模式下的光学透雾表现最佳。作为一款主打光学透雾的摄像机，该机除了采用物理方式增强清晰度外，也提供了算法辅助，从而让光学透雾技术得以更大程度的发挥和展示。
透雾摄像机的结构设计及散热性
首先看数字透雾摄像机的结构设计。由于采用的是算法处理方式，势必要对芯片造成一定压力;处理需求的增多，也会相应地提升设备的运行温度。不过，目前的摄像机都已经比较成熟，在零配件选用上，也是得心应手，什么样的功能搭配什么样的硬件，都有成熟的方案，因此，单就数字透雾技术来说，此类摄像机的散热性并不高，以本次的数字透雾摄像机大华DH-IPC-HFW8331D-Z为例，这是一款成熟的筒型枪式摄像机，在整个测试过程中，设备的温度上升并不明显。
而光学透雾摄像机，在虽然有算法的处理，但透雾对摄像机的整体图像处理功能来说，所能增加的压力也不多。从之前我们测试过的相关光学透雾型摄像机来看，透雾算法对摄像机的温度的提升也不是很明显的。而本次测试的海康威视DS-2CD4026FWD/D星光级200万超宽动态专业透雾型枪型网络摄像机，则在测试过程中，在26℃左右的室内环境下，机身温度竟然达到了50℃以上，这是颇为少见的，为了降低散热，该机在结构上较海康威视的第一代SMART摄像机来说，增加了易于散热的片翅设计。而实际上，本次测评的DS-2CD4026FWD/D是一款SMART 2.0智能网络摄像机，内部植入了各种智能分析算法，同时，对低照度、宽动态、数字降噪等功能也进行了算法提升，在功能的不断增加下，该机的处理散热量会比较大;同时，该设备作为一款新品，软件版本的算法优化还在不断提升当中，由于测试时，版本比较低，散热量大必不可少;事后，我们对摄像机进行了软件版本的升级，此时摄像机的工作温度降到了40℃左右。
再看安装性。两个设备均支持PoE供电功能，测试中，只需给摄像机接入一根带PoE供电的网线，即完成了设备的联网和使用;同时，设备提供有BNC前端调试图像输出功能，对调试也是很便利的;而大华的设备还支持后端变焦、聚焦功能，更省去了前端调试的麻烦。
透雾摄像机画质及功能表现
我们首先看画质功能。海康威视的光学透雾摄像机采用的是主流的H.264压缩算法;大华采用的是最新的H.265压缩算法。前者在4Mbps下可保持良好的1080P画质效果;后者由于算法的低压缩速率，在3Mbps下就可正常运行300万高清画质，由于算法的不一样，两者在带宽处理上不具备典型可比性。不过可以肯定的是，这两款分别作为各自的最新产品之一，都良好地延续了技术实力，保证了图像画质的高清表现，其中海康威视的水平和垂直清晰度接近1100TVL，边缘清晰度为1000TVL;大华为水平清晰度1300TVL，垂直达到1200TVL;色彩还原、灰阶等方面都有良好的还原表现。
再看功能方面，宽动态、背光补偿、强光抑制等功能均是支持，而在低照度方面，这两款摄像机延续了海康威视和大华两家的星光级优势，实现0.001Lux的星光级效果是没有问题的。而在智能分析方面，这两款设备支持的功能非常丰富：
·大华DH-IPC-HFW8331D-Z：支持虚焦侦测、区域入侵、拌线入侵、物品遗留/消失、场景变更、徘徊检测、人员聚集、快速移动、非法停车、音频异常侦测、人脸侦测、外部报警、客流量统计、热度图等;
·海康威视DS-2CD4026FWD/D：支持越界侦测、区域入侵侦测、进入/离开区域侦测、徘徊侦测、人员聚集侦测、快速运动侦测、停车侦测、物品遗留/拿取侦测、场景变更侦测、音频陡升/陡降侦测、音频有无侦测、虚焦侦测、车辆检测(支持车牌识别，车型/车标/车身颜色/车牌颜色识别)、混行检测(检测正向或逆向行驶的车辆以及行人和非机动车，自动对车辆牌照进行识别，可以抓怕无车牌的车辆图片)等。
由于两者可支持的智能分析算法众多，尤其是海康威视的DS-2CD4026FWD/D，设备商还提供了定制化服务，可根据客户的不同需求，针对性地植入所需智能分析功能。

‘陆’ DBSCAN与kmeans，OPTICS区别

DBSCAN和Kmeans的区别：
1)K均值和DBSCAN都是将每个对象指派到单个簇的划分聚类算法，但是K均值一般聚类所有对象，而DBSCAN丢弃被它识别为噪声的对象。
2)K均值使用簇的基于原型的概念，而DBSCAN使用基于密度的概念。
3)K均值很难处理非球形的簇和不同大小的簇。DBSCAN可以处理不同大小或形状的簇，并且不太受噪声和离群点的影响。当簇具有很不相同的密度时，两种算法的性能都很差。
4)K均值只能用于具有明确定义的质心（比如均值或中位数）的数据。DBSCAN要求密度定义（基于传统的欧几里得密度概念）对于数据是有意义的。
5)K均值可以用于稀疏的高维数据，如文档数据。DBSCAN通常在这类数据上的性能很差，因为对于高维数据，传统的欧几里得密度定义不能很好处理它们。
6)K均值和DBSCAN的最初版本都是针对欧几里得数据设计的，但是它们都被扩展，以便处理其他类型的数据。
7)基本K均值算法等价于一种统计聚类方法（混合模型），假定所有的簇都来自球形高斯分布，具有不同的均值，但具有相同的协方差矩阵。DBSCAN不对数据的分布做任何假定。
8)K均值DBSCAN和都寻找使用所有属性的簇，即它们都不寻找可能只涉及某个属性子集的簇。
9)K均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN会合并有重叠的簇。
10)K均值算法的时间复杂度是O(m)，而DBSCAN的时间复杂度是O(m^2)，除非用于诸如低维欧几里得数据这样的特殊情况。
11)DBSCAN多次运行产生相同的结果，而K均值通常使用随机初始化质心，不会产生相同的结果。
12)DBSCAN自动地确定簇个数，对于K均值，簇个数需要作为参数指定。然而，DBSCAN必须指定另外两个参数：Eps（邻域半径）和MinPts（最少点数）。
13)K均值聚类可以看作优化问题，即最小化每个点到最近质心的误差平方和，并且可以看作一种统计聚类（混合模型）的特例。DBSCAN不基于任何形式化模型。
DBSCAN与OPTICS的区别：
DBSCAN算法，有两个初始参数E（邻域半径）和minPts(E邻域最小点数)需要用户手动设置输入，并且聚类的类簇结果对这两个参数的取值非常敏感，不同的取值将产生不同的聚类结果，其实这也是大多数其他需要初始化参数聚类算法的弊端。
为了克服DBSCAN算法这一缺点，提出了OPTICS算法（Ordering Points to identify the clustering structure）。OPTICS并不显示的产生结果类簇，而是为聚类分析生成一个增广的簇排序（比如，以可达距离为纵轴，样本点输出次序为横轴的坐标图），这个排序代表了各样本点基于密度的聚类结构。它包含的信息等价于从一个广泛的参数设置所获得的基于密度的聚类，换句话说，从这个排序中可以得到基于任何参数E和minPts的DBSCAN算法的聚类结果。

‘柒’ 光学显微镜倍数算法典例

光学显微镜的放大:物镜倍数*目镜倍数=总放大倍数.
如果有附加物镜的还要再乘以附加物镜等于总放大倍数.

‘捌’ OPTICS聚类算法的matlab实现

OPTICS聚类算法代码，从http://www.pudn.com/downloads238/sourcecode/math/detail1113278.html
该处下载。
% -------------------------------------------------------------------------
% Function:
% [RD,CD,order]=optics(x,k)
% -------------------------------------------------------------------------
% Aim:
% Ordering objects of a data set to obtain the clustering structure
% -------------------------------------------------------------------------
% Input:
% x - data set (m,n); m-objects, n-variables
% k - number of objects in a neighborhood of the selected object
% (minimal number of objects considered as a cluster)
% -------------------------------------------------------------------------
% Output:
% RD - vector with reachability distances (m,1)
% CD - vector with core distances (m,1)
% order - vector specifying the order of objects (1,m)
% -------------------------------------------------------------------------
% Example of use:
% x=[randn(30,2)*.4;randn(40,2)*.5+ones(40,1)*[4 4]];
% [RD,CD,order]=optics(x,4)
% -------------------------------------------------------------------------
%

function [RD,CD,order]=optics(x,k)

[m,n]=size(x);
CD=zeros(1,m);
RD=ones(1,m)*10^10;

% Calculate Core Distances
for i=1:m
D=sort(dist(x(i,:),x));
CD(i)=D(k+1);
end

order=[];
seeds=[1:m];

ind=1;

while ~isempty(seeds)
ob=seeds(ind);
seeds(ind)=[];
order=[order ob];
mm=max([ones(1,length(seeds))*CD(ob);dist(x(ob,:),x(seeds,:))]);
ii=(RD(seeds))>mm;
RD(seeds(ii))=mm(ii);
[i1 ind]=min(RD(seeds));
end

RD(1)=max(RD(2:m))+.1*max(RD(2:m));

function [D]=dist(i,x)

% function: [D]=dist(i,x)
%
% Aim:
% Calculates the Euclidean distances between the i-th object and all objects in x
% Input:
% i - an object (1,n)
% x - data matrix (m,n); m-objects, n-variables
%
% Output:
% D - Euclidean distance (m,1)

[m,n]=size(x);
D=(sum((((ones(m,1)*i)-x).^2)'));

if n==1
D=abs((ones(m,1)*i-x))';
end

‘玖’ 基于web的信息检索聚类分析工具！

概述
俗话说：“物以类聚，人以群分”，在自然科学和社会科学中，存在着大量的分类问题。所谓类，通俗地说，就是指相似元素的集合。聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法。聚类分析起源于分类学，在古老的分类学中，人们主要依靠经验和专业知识来实现分类，很少利用数学工具进行定量的分类。随着人类科学技术的发展，对分类的要求越来越高，以致有时仅凭经验和专业知识难以确切地进行分类，于是人们逐渐地把数学工具引用到了分类学中，形成了数值分类学，之后又将多元分析的技术引入到数值分类学形成了聚类分析。聚类分析内容非常丰富，有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。
[编辑本段]聚类算法分类
聚类分析计算方法主要有如下几种： 1. 划分法(partitioning methods)：给定一个有N个元组或者纪录的数据集，分裂法将构造K个分组，每一个分组就代表一个聚类，K<N。而且这K个分组满足下列条件：（1）每一个分组至少包含一个数据纪录；（2）每一个数据纪录属于且仅属于一个分组（注意：这个要求在某些模糊聚类算法中可以放宽）；对于给定的K，算法首先给出一个初始的分组方法，以后通过反复迭代的方法改变分组，使得每一次改进之后的分组方案都较前一次好，而所谓好的标准就是：同一分组中的记录越近越好，而不同分组中的纪录越远越好。使用这个基本思想的算法有：K-MEANS算法、K-MEDOIDS算法、CLARANS算法； 2. 层次法(hierarchical methods)：这种方法对给定的数据集进行层次似的分解，直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。例如在“自底向上”方案中，初始时每一个数据纪录都组成一个单独的组，在接下来的迭代中，它把那些相互邻近的组合并成一个组，直到所有的记录组成一个分组或者某个条件满足为止。代表算法有：BIRCH算法、CURE算法、CHAMELEON算法等； 3. 基于密度的方法(density-based methods):基于密度的方法与其它方法的一个根本区别是：它不是基于各种各样的距离的，而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。这个方法的指导思想就是，只要一个区域中的点的密度大过某个阀值，就把它加到与之相近的聚类中去。代表算法有：DBSCAN算法、OPTICS算法、DENCLUE算法等； 4. 基于网格的方法(grid-based methods):这种方法首先将数据空间划分成为有限个单元（cell）的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快，通常这是与目标数据库中记录的个数无关的，它只与把数据空间分为多少个单元有关。代表算法有：STING算法、CLIQUE算法、WAVE-CLUSTER算法； 5. 基于模型的方法(model-based methods):基于模型的方法给每一个聚类假定一个模型，然后去寻找能个很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在的假定就是：目标数据集是由一系列的概率分布所决定的。通常有两种尝试方向：统计的方案和神经网络的方案。

‘拾’ 数据挖掘中OPTICS算法到底是怎样的

聚类分析是数据挖掘中的一个很活跃的研究领域，并提出了许多聚类算法。这些算法可以被分为划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法。

1 、划分方法(PAM:PArtitioning method)首先创建k个划分，k为要创建的划分个数；然后利用一个循环定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。典型的划分方法包括：
k-means,k-medoids,CLARA(Clustering LARge Application),
CLARANS(Clustering Large Application based upon RANdomized Search).
FCM

2、层次方法(hierarchical method)创建一个层次以分解给定的数据集。该方法可以分为自上而下（分解）和自下而上（合并）两种操作方式。为弥补分解与合并的不足，层次合并经常要与其它聚类方法相结合，如循环定位。典型的这类方法包括：
第一个是;BIRCH(Balanced Iterative Recing and Clustering using Hierarchies) 方法，它首先利用树的结构对对象集进行划分；然后再利用其它聚类方法对这些聚类进行优化。
第二个是CURE(Clustering Using REprisentatives) 方法，它利用固定数目代表对象来表示相应聚类；然后对各聚类按照指定量（向聚类中心）进行收缩。
第三个是ROCK方法，它利用聚类间的连接进行聚类合并。
最后一个CHEMALOEN，它则是在层次聚类时构造动态模型。

3、基于密度方法，根据密度完成对象的聚类。它根据对象周围的密度（如 DBSCAN）不断增长聚类。典型的基于密度方法包括：
DBSCAN(Densit-based Spatial Clustering of Application with Noise):该算法通过不断生长足够高密度区域来进行聚类；它能从含有噪声的空间数据库中发现任意形状的聚类。此方法将一个聚类定义为一组“密度连接”的点集。
OPTICS(Ordering Points To Identify the Clustering Structure):并不明确产生一个聚类，而是为自动交互的聚类分析计算出一个增强聚类顺序。。

4 、基于网格方法，首先将对象空间划分为有限个单元以构成网格结构；然后利用网格结构完成聚类。
STING(STatistical INformation Grid) 就是一个利用网格单元保存的统计信息进行基于网格聚类的方法。
CLIQUE(Clustering In QUEst)和Wave-Cluster 则是一个将基于网格与基于密度相结合的方法。

5、基于模型方法，它假设每个聚类的模型并发现适合相应模型的数据。典型的基于模型方法包括：

统计方法COBWEB:是一个常用的且简单的增量式概念聚类方法。它的输入对象是采用符号量（属性-值）对来加以描述的。采用分类树的形式来创建一个层次聚类。
CLASSIT是COBWEB的另一个版本.。它可以对连续取值属性进行增量式聚类。它为每个结点中的每个属性保存相应的连续正态分布（均值与方差）；并利用一个改进的分类能力描述方法，即不象COBWEB那样计算离散属性（取值）和而是对连续属性求积分。但是CLASSIT方法也存在与COBWEB类似的问题。因此它们都不适合对大数据库进行聚类处理.

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：873

制作脚本网站发布：2025-10-20 08:17:34 浏览：1131

python中的init方法发布：2025-10-20 08:17:33 浏览：848

图案密码什么意思发布：2025-10-20 08:16:56 浏览：1006

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：893

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1244

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：463

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：348

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：1022

python股票数据获取发布：2025-10-20 07:39:44 浏览：1003

optics算法

与optics算法相关的资讯