抓取网页常见问题总结

Author:zhang Date:2015年12月7日 - 0:00 AM

有时候我们需要程序化的方式访问网页, 最典型的应用当然是网络爬虫, 但也可以是其他有用的应用. 和通常的用浏览器访问不同, 爬虫会碰到一些意想不到的问题, 一般大型站点基本都有某种反爬虫策略. 不过理论上, 服务器是无法完全区别浏览器和爬虫的, 只要不是恶意的发送大量请求, 基本可以绕过这些限制, 下面是常见的问题总结.

Referer

more

Clojure脚本处理yandex图片搜索和Youtube视频下载地址

Author:zhang Date:2015年11月25日 - 0:00 AM

论搜索能力, Yandex不再Google之下, 有时候比Google的结果要好, 下面的Clojure脚本将会抓取Yandex图片搜索的结果并提取所有图片的图片地址, 来源网址等信息, 这样可以在同一个界面中以原始大小显示所有图片.

more

Page 1/63 前一页1234567后一页