搜索算法起源
1. 历年来百度搜索算法的盘点与解读,建议搜藏
为了给搜索用户提供更加优质便捷的搜索体验,网络搜索始终不忘初心,致力与内容生产者、资源提供者携手共建和谐健康的搜索生态。
今天云指菌要给大家总结一下网络算法历年来的发展历程。
发展历程
1997:超链文件检索系统和方法
创建了区别于传统信息检索、基于链接的排名方法。由此,网络搜索引擎排名优化诞生,开启了最早的站长时代。
2010-2011:网络搜引擎优化1.0
规范和引导站长和seoer如何进行网站排名的优化,seo正式进入互联网营销的舞台。
2012:超链算法
为了能够有实际标准区分网站好坏,当一个网站被较多网站应用后,网络就会给予好的的排名。从此开启了SEO外链为皇的时代,导致了大量刷外链的行为。
2013.5:石榴算法
打击不良广告、弹窗等影响用户的行为。网站上不放弹窗广告,减少和优化广告投放数量。
2013.7:绿萝算法
打击链接交易和刷外链的行为。链接交易平台、长期出售外链和购买外链的网站被降权。应当以友情链接代替购买外链,摒弃垃圾外链,建设优质外链。
2013.10:起源算法
建立比较完善的原创识别算法,打击伪原创,建设原创联盟,给予原创和优质站点更好的发展空间。应当提高文章伪原创的要求和把控。
2014.8-2018.11:冰桶算法
打击在移动端强行要求用户下载APP,登陆注册,首屏大广告覆盖;打击移动端广告展示过多的页面;打击内容包含灰色业务、色情内容及链接的网站;打击内容粗制滥造,原创度低,阅读体验差的网站;控制屏幕广告的屏占比例,保障用户浏览体验;提升移动搜索落地页体验,营造优质移动搜索生态。回归到用户体验,与网络移动搜索生态和谐共处。
2014.12:白杨算法
希望实现移动站点优化,扶持地方特色类站点,优化排序,本地信息靠前,明确了城市信息前置和明确化。因此分类信息平台发布的地方性信息在搜索带有地区词排名会有相对靠前,也就是为了外链引流创造了机会。
2016.8:天网算法
打击盗取用户隐私的行为,比如内嵌恶意代码,盗取QQ和手机号等。一经发现就会处罚,整改后解除。应当删除内嵌抓取手机号、QQ号和涉及用户隐私的代码。
2016.9:网络MIP和AMP
网络推出MIP框架实现移动网页加速,被MIP-Cache缓存的页面,在一秒内即可打开,大大提升了移动端网站的体验,因此网络给予MIP站点更好的排名和扶持。开发简单。成本低、兼容性好。
2016.11:蓝天算法
打击新闻源平台售卖文章和目录的行为,一旦触发,取消新闻资格,降低平台评价。目前来说把控并不精准啊,文章售卖和框架刷屏依旧存在。
2017.1:百家号
网络将原有的发布平台并入百家号,自此开启了网络自媒体时代,百家号的原创文章能够获得较好的发展,虽然类似头条等自媒体平台的运作,但网络百家号是基于搜索引擎为基础的,拥有独特的推广和发展机制。
2017.7-2018.9:飓风算法
打击采集类网站,例如网站内容中采集和转载占比过大,优质原创内容匮乏。打击跨领域采集,例如一个财经网站,突然发起了建筑、美食、明星、养生等类型的内容。
2017.8:网络蜘蛛升级
升级对Https数据的抓取,基于Https站点更高的权重和加分,提升优化收益。站点备案并加装SSL协议证书,
2017.9-2018.10:清风算法
打击标题党、文不符题;打击标题关键词堆砌;针对下载站的欺诈下载和捆绑下载行为。SEO不同于自媒体,SEO应以满足用户需求的角度来设置标题,而不是吸引眼球。内页标题设置标准:“核心词(简要主内容)_修饰词1_修饰词2_网站名称”,核心词保持1~2次,不要超过3次,这一点时候我们过去重关键词精密度做法的重要纠正。
2017.8:闪电算法
移动端打开速度快的网站给予加权,慢的给予降权。“移动端采用CDN加速,采用页面缓存,不要使用过大图片。
2017.11-2018.11:移动搜索白皮书
发布《网络移动搜索建站优化白皮书》捍卫移动搜索用户体验1、广告2、APP引导3、主题内容4、首屏5、一屏6、广告内容7、低俗违禁内容。发布《网络移动搜索建站优化白皮书4.0》优化站点移动端体验和适配1、主题内容2、首屏3、一屏4、移动端适配5、列表页6、广告7、详情页8、APP引导9、一跳页面10、多跳页面11、资源流程12、移动适配发布《网络搜索网页标题规范》
2017.11:熊掌号
熊掌号是一个集独立网站、自媒体平台等等的聚合平台,无论你的独立博客网站还是没有网站的自媒体人活着是两者的结合都可以通过熊掌号把自己创作的内容聚合起来呈现给自己的用户,用户关注这个熊掌号平台就形成了一个属于自己的用户生态闭环。熊掌号有着自己的专注领域,这有别于百家号的媒体行知,更类似与品牌类公众号。
2017.11-2018.5:惊雷算法
打击刷点击的快排,重要的网站不轻易尝试快排。
2018.5:极光算法
打击PC端和移动端落地页面无时间因子或标注不明的网站。在网站内容页面标注准确的发布或是更新时间。
2018.6:季风算法
倡导熊掌号领域专注,同年3月发布《惩罚熊掌号领域与内容严重不匹配》的公告,伟凡得到将予以打击,对领域专注的予以扶持。应当发布领域相关的内容。
2018.7:细雨算法
打击B2B网站的内容标题存在关键词堆砌行为;打击企业网站标题包含其他品牌”官网“,误导用户。平台型网站内页标题减少关键词出现频次,以旅游行业为例,可参考携程的酒店页面标题写法。企业网站首页标准尽量不要出现“官网”,除非自己即是该知名品牌。
2019.3:烽火算法
打击严重危害搜索用户的网络安全,网站劫持等行为。
2019.4:严格控制搜索中的权限问题
用户查看网页中的全部内容时,如:阅读全文,查看图片,查看论坛帖子,观看视频内容,其他内容获取。网站强制用户必须完成指定操作后才可进行查看,包括但不限于以下方式:强制用户完成网站注册或登录,强制用户下载相关APP,强制用户在APP查看内容,强制用户完成其他要求。功能使用权限:用户使用网页中的功能时,如:查看评论详情,查看相关推荐,拨打电话,内容资源下载,使用其他功能。应当积极整改用于的使用和浏览权限。
2019.5:信风算法
打击网站利用翻页键引导用户的行为,极大地损害了用户的浏览体验。用户后点击翻页键是,自动跳转至网站的其他频道页面(如目录页、站外广告页面等)不使用翻页键按钮做不正当的引导和内链建设。
建议大家搜藏起来,否则刷着刷着就不见啦!
2. 算法的起源
算法来源于着名的Persian Textbook(《波斯教科书》)的作者的名字Abu Ja'far Mohammed ibn Mûsâ al-Khowârizm
算法(Algorithm)是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。
3. ID3算法背景知识
最初的ID3算法起源于1975年,由Ross Quinlan在悉尼大学的研究中提出,这在《机器学习》研究所的硕士论文中有所阐述,编号为民国1号。ID3算法的核心是概念学习系统(CLS)的构建,其基本流程如下:
步骤1:如果所有训练实例对于特性C都为正,就创建一个“是”节点并停止。相反,如果所有实例都为负,则创建一个“无”节点并停止。接下来,选择一个特性F(如v1至vn),并在其值的基础上划分训练集为C1、C2等子集。
步骤2:对每个子集递归地应用ID3算法,专家(训练者)负责决定选择哪些特性进行划分。
后续版本的ID3算法在特征选择上加入了启发式改进,它通过寻找在训练集中最能区分实例的属性来进行分割。如果一个属性可以完全分类训练集,算法则停止;否则,它会递归地进行n次分割(n为一个属性可能划分出的子集数量),选取最优属性。ID3采用贪心搜索策略,即每次选择最优属性,不考虑之前的选择。
决策树是一种用于预测的工具,通过数据分类达到目的。其工作原理是首先根据训练数据生成决策树,如果树不能准确分类所有对象,就将部分异常对象添加回训练集,重复这个过程直到形成正确的决策树。决策树由决策节点、分支和叶子组成,根节点位于顶部,决策节点代表问题或决策,而叶子节点则代表分类结果。在分类过程中,从根节点开始,根据测试条件选择分支,最终到达一个叶子节点,以此判断对象所属类别。
4. 遗传算法第一次提出来是在什么文献中
《搜索、优化和机器学习中的遗传算法》。
遗传算法(Genetic Algorithm,GA)最早是由美国的 John holland于20世纪70年代提出,该算法是根据大自然中生物体进化规律而设计提出的。是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法。
遗传算法的基本运算过程如下:
(1)初始化:设置进化代数计数器t=0,设置最大进化代数T,随机生成M个个体作为初始群体P(0)。
(2)个体评价:计算群体P(t)中各个个体的适应度。
(3)选择运算:将选择算子作用于群体。选择的目的是把优化的个体直接遗传到下一代或通过配对交叉产生新的个体再遗传到下一代。选择操作是建立在群体中个体的适应度评估基础上的。
(4)交叉运算:将交叉算子作用于群体。遗传算法中起核心作用的就是交叉算子。
(5)变异运算:将变异算子作用于群体。即是对群体中的个体串的某些基因座上的基因值作变动。群体P(t)经过选择、交叉、变异运算之后得到下一代群体P(t+1)。
(6)终止条件判断:若t=T,则以进化过程中所得到的具有最大适应度个体作为最优解输出,终止计算。
5. GA算法是什么
GA算法,即遗传算法(Genetic Algorithm),是一种起源于20世纪80年代初期的搜索优化技术,它借鉴了自然界中生物进化过程的原理。作为启发式算法的一种,它最初是为了模仿自然界中的生物种群,如禁忌搜索(Tabu Search)和模拟退火(Simulated Annealing)等方法,通过构建种群、遗传操作、适应度评估等核心机制,寻找问题的最优解或者近似最优解。其中,禁忌搜索通过限制搜索过程中的某些操作,避免陷入局部最优,而模拟退火则通过设定温度梯度,允许在一定概率下接受较差解,从而增加搜索空间的探索性。
而GA算法的另一大分支——蚁群算法,更是将蚂蚁觅食的行为作为灵感,通过构建虚拟的蚂蚁群体,每只蚂蚁在问题空间中寻找食物(目标),通过信息素的释放和感知,引导其他蚂蚁寻找最有效路径。这种算法强调分布式搜索和协同工作,能够在复杂问题上展现强大的优化能力。
总的来说,GA算法是一种模拟自然选择和遗传过程的计算技术,通过迭代优化,能够在解决优化问题、搜索问题空间等方面展现出独特的优势。它被广泛应用于工程优化、机器学习、计算机视觉等多个领域,为复杂问题的求解提供了强大的工具。