刷百度相关搜索和下拉框的技术原理
对于单个用户来说搜索后继词的确定性是不够的,比如搜索科比,但是一看到旁边有人我就立刻改变搜索培训,那么这两个词是没有相关性质的。那么就加入统计规则去掉一些杂质,比如某个词B只有出现在5个用户的相同的搜索词A的后继词中才算一个A的后继词,还有其他的一些规则,这么下来,日志就变成了。 key:A succeed:A1,A2,A3..... 用户协同过滤原理: 当搜索用户日志足够多的情况,可以把拥有相同搜索记录的用户聚合起来,通过协同过滤算法,获取更多的相关性的词。通过下面协同过滤算法同样可以把加索尔推荐给NBA了。 A用户:篮球 后继词 男篮 女篮 B用户:NBA 后继词 男篮 科比 C用户:男篮比赛 后继词 男篮 加索尔 从搜索词算法实现: 如果一个关键词搜索词结果,跟另外一个,甚至几个关键词搜索出来的结果很多交集,那么这些关键词很可能也是语义相关的词。 从搜索日志来看例子: key:搜索词 time:搜索时间 cookie:用户cookieid result:a,b,c,d,e(前5个搜索结果) 这次,我们只用key和result两项,稍微处理下来以后就变成了 key:搜索词A result:a,b,c,d,e(前5个搜索结果) key:搜索词B result:a,f,c,g,m(前5个搜索结果) (编辑:威海站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |