网络爬虫


1.R

  • RCurl
  • httr
  • rvest
  • XML
  • xlm2
  • SelectGadget(CSS选择器生成工具)
  • Rselenium
  • stringr
  • rlist
  • downloader
  • Rcrawler(并行化爬虫)
  • clickpaste包
  • magick,jpeg,png...

2.Python

  • urllib
  • urllib2
  • urllib3
  • request
  • cookielib
  • scrapy
  • pyspider
  • selenuim
  • beautifulsoup(from bs4 inport BeautifulSoup)
  • lxml
  • etlpy(网页数据抓取和清洗工具)
  • PyQuery(jQuery的Python实现)
  • Splash(负载均衡)
  • re
  • cv2(opencv)
  • Pillow

3.爬虫的例子*

我用R和Python都做过一些爬虫的需求,因数据安全问题不方便看例子。

  • RCurl + shiny(R)

  • request + bs4 + R Markdown(R + Python)

  • selenium + itchat + Gui(Python)

  • ....

  • Python有框架,并行分布式爬虫,缓存数据库,代理IP,负载均衡等问题优化爬虫项目,爬虫产品的开发比R要NB一些,不过业务爬虫R与Python基本差不多