相关性算法, 网站的核心组件


今天偶然看到一则招聘广告:京东商城招聘相关性算法工程师. 一直以来很模糊的一个概念一下子清晰起来, 那就是"相关性算法". 以前想要知道这方面的内容都是用"相关文章", "相关列表" 等来搜索这方面的信息. 结果基本上找不到有用的东西.

因为碰到越来越多的场合需要这种算法, 从一个页面计算出和其相关联的网页. 看了一些系统的源码, 涉及到这方面的竟然出奇的少.

文章网站需要计算相关文章列表, 电子商务要计算相关产品, 社交网站,约会网站要计算人的匹配程度, 至于搜索引擎就更是如此.

更多关键字: 向量空间模型, VSM, TF-IDF, 特征匹配, 相似度, HillTop, 中文分词.