知乎推荐算法
Ⅰ 知乎话题排名优化如何做如何让我的评论排名靠前
这应该是两个问题吧。知乎话题排名优化,应该是指优化新发布话题的排名。知乎平台的排名规则和百家号、今日头条等平台有些类似,内容发布以后,平台会通过算法推荐给目标用户,如果用户点击、点赞、评论等互动数据良好,就会推荐给更多的人,获取的权重也越来越高,在关联关键词的搜索结果中,排名也越高。一般来说,新话题发布后的2小时是关键,大概率决定排名的上限。至于回复、评论的排名,核心因素在于互动数据,特别是点赞量,数据越高,对排名帮助越大。(以上内容,摘选自途阔营销官网)
Ⅱ 推荐算法如何提前划分制造同类目日志
做推荐算法的质量工作将近一年,这一年尝试了很多东西,踩了不少坑,也对推荐的评测工作稍微有了些自己的心得,现在分享出来,希望能和做这块工作的同学一起交流、探讨,也欢迎多拍砖,多提意见。
推荐系统
目前推荐技术的应用已经非常较普及了,新闻、商品、问答、音乐,几乎都会用到推荐算法来为你呈现内容。下面是淘宝、知乎、微博三个app的推荐模型,可以看到推荐都在非常重要的位置。
在介绍推荐算法评测之前,我先简单说下推荐系统,这里我以商品为例,简单描述下推流程,让大家更明白一些,一般推荐主要包含以下步骤:
召回->打分排序->透出
召回
召回阶段通常的手段是协同过滤比较场景的i2i,u2i等这种x2x(有兴趣可以看下我写的基于itembase的推荐),也有使用embedding的方式通过向量之间的距离进行召回。以i2i为例,假如现在要针对我推荐一个商品,那么首先要找到我感兴趣的物品 ,这些数据是通过我的历史行为来进行获取,比如拿到我最近一段时间内的点击、加购、收藏、购买的物品,将这些商品做为trigger进行召回,协同算法的具体就不再这里叙述了,有兴趣可以看下链接,最终我们按照协同过滤算法算出商品之间的相似分值,然后按照一定数量进行截断,因为这里截断也是依靠分数来进行的,所以一般这一步也称粗排。这样召回截断就完成了。
打分
召回完商品后,我们需要对这些商品进行再一次的精排,这里需要用模型来预估ctr,一般情况下LR、GBDT、FM用的比较多,这里深度网络相对用的少,主要为了考虑到性能,尤其是rt,因为绝大部分的精排都是需要实时预测的,所有对耗时有一定的要求。继续说下模型预测的步骤,首先针对召回的商品进行特征的补充,例如该商品的一级类目、叶子类目(一级类目代表比较,叶子类目代表最细分的类目)、被多少用户购买等,然后再加入人的特征,例如性别、年龄、收入、对类目的偏好等,然后将这些信息做为feature,用模型进行预测,然后根据模型预测的结果进行排序,输出。
模型
打分过程中的模型是需要提前训练和部署,训练集的来源就是用户的实时行为加上用户和商品的特征。feature的构成是用户的特征和商品的特征,label则是用户是否点击了该商品。
质量方案
接下来说下如何保证这块的质量。由于推荐系统最终对用户需要提供实时的服务化,因此免不了有工程端的技术需要一起配合。因此我这块主要分为两个维度来开展,一方面是工程端的质量保证,一方面是算法侧的质量保证。
工程端质量
这一块可以将算法当成一个黑盒子,只把他当成一个有结果返回的接口。针对这方面前人已经有了丰富的经验,我们可以做接口的单元测试和冒烟测试,另外就是压测,在预估的qps下看rt是否满足业务方的要求,load是否过大,超时和错误的比例是否符合一定的预期。这里就不细说了,重点说说第二部分。
算法端质量
这里我再进行细分一下,分为三部分介绍:算法数据、算法模型、算法效果;
算法数据:
大家都知道算法在做训练前数据的处理部分非常的重要,有兴趣可以看下特征工程相关的内容,数据的来源,特征的构造,数据抽取、加工整个的过程都有可能会出现错误,而且数据一般都是存储在分布式系统数据库里,因此需要借助类似hive这样的工具将sql转换成MapRece的任务去进行离线的计算,离线任务的产出通常会耗费不少的时间,而对于一些日更新的模型通过对数据对产出时间有一定的要求。因此数据这块最主要的保证点为:数据本身的质量,和数据的产出时间。数据本身的质量一般可以通过数据大小的整体抖动,以及关键字段是否为空,主键是否重复,做法比较简单可以通过简单sql或者udf来完成,然后借助工程能力做到预警、检查、出报表等。
算法模型:
模型的本身在迭代过程中也是需要关注的,不过通常算法同学的训练优化也是参考这些指标,所以我们也可以把这几个指标做为模型本身好坏的评估。具体为:准确率、召回率、AUC。
算法效果:
那么这个算法推荐出的效果究竟好不好呢,这个是一个非常主观的事情,每个人的感受也不是一样的,但是我们仍然要衡量它的好坏,这里我参考业内学者的推荐书籍以及自己的一些摸索,总结出下面一些方法,供大家参考。
人工评测:
顾名思义,邀请一帮人来对你的推荐系统的结果进行评测。这里想法来自于我在做翻译评测时期的经验,首先这个成本比较高,另外就是参杂了人的主观性非常的高,翻译的好坏我们可以通过制定一些细致的规则来进行约束,但是推荐的好坏我们却不好制定详细的规则,另外就是推荐之前的用户行为如何模拟,如何让评测者进行感知,这些都是比较难的,并且和基准的对比也不是很好做,所以这里不是很推荐用这个方法,但是还是要提一下。
指标评估:
指标化推荐结果,也就是将推荐的结果用不同的指标来进行说明,通过这些指标,你可以更加的了解你的推荐系统,部分指标不一定越高越好,但是你需要让它保持在一定的范围内。说到具体的例子的时候,我会提一下。下面我们看下这些指标。
覆盖率
定义:
推荐系统能够推荐出来的“商品/类目”占“总商品/类目”集合的比例。假设系统的用户集合为U,推荐系统给每个用户推荐一个长度为N的物品列表R(u) ,总物品为N。那么:
覆盖率 = ΣR(u)N
Σ
R
(
u
)
N
意义:
描述推荐结系统对物品长尾发掘能力;
举个例子,淘宝上商品千千万万,推荐系统能否保证让新的一些商品有足够的机会曝光出去呢?还是有些商品永远都无法得到推荐曝光的机会。这个指标反应的就是这个情况,显然物品的覆盖率是达不到100%的,但是我们可以看类目的覆盖率来进行衡量,假设全网所有的一级大类目一共2千个(和全网上亿的物品相比非常的少),那么推荐系统一天之内推荐出去的商品对应的一级类目,这个就是我们要衡量的标准。如果覆盖率
Ⅲ 知乎搜索话题是可以自动补全,使用了什么数据结构和算法
首先,要能够读懂代码,总结算法的思想,搞清楚该题算法是完成什么功能,然后是填空也好,写算法结果也好,就不成问题了。要想提高的快,就得多练啊。同时教材中的相关算法也要熟,好多是书中的原算法
1. 在计算机中,算法是指什么?
答案:解题方案的准确而完整的描述。
2. 在下列选项中,哪个不是一个算法一般应该具有的基本特征?
说明:算法的四个基本特征是:可行性、确定性、有穷性和拥有足够的情报。 答案:无穷性。
3. 算法一般都可以用哪几种控制结构组合而成? 答案:顺序、选择、循环。 4. 算法的时间复杂度是指?
答案:算法执行过程中所需要的基本运算次数。 5. 算法的空间复杂度是指?
答案:执行过程中所需要的存储空间。 6. 算法分析的目的是?
答案:分析算法的效率以求改进。 7. 下列叙述正确的是(C)
A.算法的执行效率与数据的存储结构无关
B.算法的空间复杂度是指算法程序中指令(或语句)的条数 C.算法的有穷性是指算法必须能在执行有限个步骤之后终止 D.算法的时间复杂度是指执行算法程序所需要的时间 8. 数据结构作为计算机的一门学科,主要研究什么?
答案:主要研究数据的逻辑结构、对各种数据结构进行的运算,以及数据的存储结构。 9. 数据结构中与所使用的计算机无关的是数据的(C) A.存储结构 B.物理结构
C.逻辑结构 D.物理和存储结构 10. 下列叙述中,错误的是(B)
A.数据的存储结构与数据处理的效率密切相关 B.数据的存储结构与数据处理的效率无关
C.数据的存储结构在计算机中所占的空间不一定是连续的 D.一种数据的逻辑结构可以有多种存储结构 11. 数据的存储结构是指什么?
答案:数据的逻辑结构在计算机中的表示。 12. 数据的逻辑结构是指?
答案:反映数据元素之间逻辑关系的数据结构。
13. 根据数据结构中各数据元素之间前后件关系的复杂程度,一般将数据结构分为? 答案:线性结构和非线性结构。
14. 下列数据结构具有记忆功能的是(C) A.队列 B.循环队列 C.栈
D.顺序表
15. 下列数据结构中,按先进后出原则组织数据的是(B) A.线性链表 B.栈
C.循环链表 D.顺序表
Ⅳ 知乎关键词排名怎么做知乎关键词排名技巧
首先我们要知道的是知乎关键词排名就是知乎搜索结果所搜索出来的结果排名,知乎关键词排名不是检索所有问题,而是只检索新问题和热门问题。根据算法,来计算问题热度,只有热度超过某个阈值,问题才会添加到搜索的范围内。
所以我们在做知乎关键词排名的时候一定要注意内容的质量,尽可能获得更多的关注,比如评论点赞,只有问题的关注度达到一定程度,才有可能被收录来排名,那么知乎关键词排名怎么做呢?这里我们可以参考一下知乎排名算法:
以上就是知乎威尔逊算法,其中其中 u 为加权赞同票数,v 为加权反对票数,[公式] 为参数。在我们做知乎关键词排名的时候就可以根据以上算法来进行一个顺序排列,这样做关键词排名就比较简单了。
Ⅳ 是不是可以通过算法或者某种方法把知乎的赞同数超过100的问题全部选出来
这估计太多了吧。。。
我先抛个砖:如果能找到一个页面,里面列出了所有的问题及其赞同数,就可以用文本分析的方法找出符合要求的。
但是我没用过知乎,不知道有没有这样的页面存在。
Ⅵ 知乎上面有哪些计算机科学与软件工程方面值得一看的问答
导论:
编程入门指南 v1.3 - 萧井陌的专栏 - 知乎专栏
如何系统、科学地自学编程知识? - 学习方法
IT 前辈们对计算机相关专业本科在校大学生有什么可以传授的经验么? - 编程
计算机本科应届毕业生要有怎样的能力才算比较好的? - 程序员
书单、资源
Students - Guide to Technical Development
程序员必读书单 1.0
resources - What is the single most influential book every programmer should read?
有哪些可以提高程序员技术档次的书或博客? - 编程
Coursera 上有哪些课程值得推荐? - 字节的回答
数据结构:
如何学习数据结构? - C(编程语言)
怎么学好数据结构? - 算法
怎样学好数据结构和编程? - 程序员
学习数据结构有什么用? - 编程
关于学习数据结构与算法的一些疑惑? - 编程
算法:
怎样学算法? - 学习方法
有哪些学习算法的网站推荐? - 编程
在编程和算法领域,有哪些经典问题? - 编程
什么是动态规划?动态规划的意义是什么? - 算法
Ⅶ 知乎问答推广怎么做
第一点:高权重账号
知乎内容展现和账号权重,投票机制相关。账号权重和账号注册时间,关注人多,回答质量相关,知乎投票机制包括点赞,收藏,喜欢,感谢,评论等。
所以,在知乎推广引流要使用高权重的账号。如果自己已有知乎账号,并且注册时间较早,且有一定基础可以直接拿来养号备用。也可以去网上购买老号,再绑定自己的手机。完善资料信息,关注一些话题,大号,点赞,评论一些相关内容。
注意一定要有养号的步骤而不是一拿过来就打广告。
账号级别高,回答数量多,在知乎的影响力是非常大的,所回答的问题所写的文章,就会被知乎收录。每个问答的点赞,感谢关注也等都有很多。
相反,像这类的“三无”小号(昵称乱码,没有头像,没有个人介绍,没有或极少关注问题,没有粉丝也没有去关注其他人,没有点赞,没有提问,没有回答),基本上是什么都没有,如果一上来就做推广的话,基本上就会死翘翘了!
第二点:找准推广位置
知乎对广告容忍度是比较高的,当然前提是你提供的是干货有价值的广告信息。通常可以在这些地方打广告。
1. 知乎昵称和个人介绍,直接取名就是广告,个人介绍那里可以留联系方式;
2.回答内容直接放广告,文中或文末放微信号或二维码,不过初级账号不建议这样操作,容易封号;
3. 除了提问,回答,发布文章,知乎还有一个发布想法,类似于微博,说说,在这里发布广告比较安全,如果你的粉丝关注者多,也能起到一定推广效果;文章尽量干一点,然后会让你投稿,可以全部投稿,这样得到展现的几率大一点;
第三点:提供高质量内容
最后也是最重要的一点,在知乎推广引流,一定是要提供高质量的干货内容。
(一)如何选择问题,找问题之前要先对自己的目标用户进行画像,先要知道他/她会关注哪些话题,这样才能选择好问题。以做网络营销培训为例。
(1)直接搜索相关话题,到话题里检索问题,还有父话题,子话题,到话题里去找问题。
(2) 筛选潜力话题,要根据潜在客户的心理去找话题,要了解他们会关注哪些话题,然后在去回答。
(3)新手不建议去回答大话题。要尽量避开答案多,牛人多的问题,就算回答了也会在后面,会被淹没。回答体量中等偏上的问题,流量在几千到一万之间就比较合适,既没有很多牛人竞争,也有一定浏览量,潜在用户也能看到,等自己的账号有一定权重了再去回答热门的话题,
4)找准问题,掌握回答时机,在热度起来之前抢占先机,估计这个问题之后会不会有许多人回答、有大v参与,回答的早,初期有赞,才能不被大v的回答压的太下面
Ⅷ 知乎是如何把SEO排名做上去的
不知道知乎团队对于SEO的看法是怎样的,我还是建议知乎更好的重视起SEO。SEO和产品设计、用户体验之间并不矛盾,绝对互补,而且对于知乎而言,绝对是可以利用的一个有效途径。
一、知乎非常容易获得搜索引擎排名和流量。
问题本身符合用户搜索需求。一直认为QA站是非常适合做搜索引擎流量的,因为问题本身就是用户关注的东西,也是或者包含了用户的搜索请求词。
原创内容的更新频率非常高效。这个什么好解释的,包括问题的更新、答案的更新、页面的更新等,不断丰富的原创内容绝对符合搜索引擎口味。
内部引导非常好。通过话题的组织、用户行为(问答、投票)、相关话题等设计,知乎内部几乎创造了一个非常健康、优秀的网站链接架构。而且,这些架构设计本身就是符合用户体验,需要不断增强的。
符合用户需求,创造用户和搜索引擎希望的内容,拥有良好的内部架构和外部口碑,知乎绝对具备了获取搜索引擎流量的潜力。
二、知乎现在做的不好/可以完善的地方。
相关问题的推荐算法。感觉现在知乎是以话题为最主要推荐基础,先在所属的话题下根据算法推荐出相关问题。但是研究这么久,感觉这个算法的可靠性还是很差,或者随机性太高?推荐话题这个从产品角度上将是用户引导,从SEO上讲就是内链优化,两者都是统一的。搜索引擎喜欢的,本质就是用户需要的。
知乎现在是对搜索引擎封闭的,所以收录接近于零。为什么不开放页面给搜索引擎呢?这个与封闭社区并不冲突。而且,换个角度讲,如果用户在搜索引擎里搜的话题跟知乎上的问题是一致的,那可能更说明这个用户是知乎的目标用户?这种对应关系可能比邀请机制扩散后获得会员更为有质量和黏性。
页面的基础元素没有做,类似meta这些。在quora上很多人讨论quora为什么在搜索引擎结果里会有很好的排名,除了上面说的这类网站本身具备的优势外,quora也是对网站整体做了符合搜索引擎友好的设置和优化的,譬如meta这类。<meta property="og:description" content="Answer (1 of 2): See Why is Quora ranking so high on Google?" /><meta property="og:title" content="Why don't Quora question pages rank higher in Google searches?" />
个人profile的搜索排名。现在很多的在线名片http://about.me这类网站有一个目的就是获取用户名字在搜索引擎结果里的排名,给用户提供额外价值。facebook、myspace等社交网站,以及Quora都为会员profile进行了SE优化。知乎也应该做,绝对应该,无论从搜索引擎流量而言,还是从网站的特性而言,用户的profile都将成为非常重要的一点过渡页面。在这个页面上展示用户的历史痕迹,给其他人引导和发掘的机会。知乎要发力,除了QA本身之外,用户登录首页、个人主页都是需要重视的,也是更容易增强用户黏性的地方。通过针对性优化,提升个人名字、主页在搜索引擎结果页面的排名,实际上对于该用户本身,或者搜索这类名字的人来说,都是绝佳的。上面也说了,搜索某个用户名的人,很可能也是知乎的目标人群,因为这个搜索者必然是有针对该用户进行探索的需求的。
很多网站成功,都不会说因为SEO而成功,很多都会归结于其他各种原因。但是评估其大多数成功的网站,都会发现这些网站的搜索引擎友好性是非常好的,而且也重视搜索引擎。关注SEO不会让知乎取得成功,但是却可以让知乎获得更大的发展。所以,知乎还是重视下SEO吧
来自:知乎-葛小飞
Ⅸ 知乎小红书的算法规则是怎样的,怎么做关键词排名
知乎小红书的算法都非常复杂,但是基本上还是会与发布账号权重,文章回答的互动量等等有关,更与文案的质量有关,因此很多关键词排名优化都是从此入手的
Ⅹ 那个知乎上为什么整天推荐的都是婚姻两性的话题
知乎推荐算法是根据您访问的频次、关注点、输入法抓取数据来计算的,可能是平时您对这方面的内容关注比较多,因此向您推荐的便以这方面居多