网络爬虫
1.R
- RCurl
- httr
- rvest
- XML
- xlm2
- SelectGadget(CSS选择器生成工具)
- Rselenium
- stringr
- rlist
- downloader
- Rcrawler(并行化爬虫)
- clickpaste包
- magick,jpeg,png...
2.Python
- urllib
- urllib2
- urllib3
- request
- cookielib
- scrapy
- pyspider
- selenuim
- beautifulsoup(from bs4 inport BeautifulSoup)
- lxml
- etlpy(网页数据抓取和清洗工具)
- PyQuery(jQuery的Python实现)
- Splash(负载均衡)
- re
- cv2(opencv)
- Pillow
3.爬虫的例子*
我用R和Python都做过一些爬虫的需求,因数据安全问题不方便看例子。
-
RCurl + shiny(R)
-
request + bs4 + R Markdown(R + Python)
-
selenium + itchat + Gui(Python)
-
....
-
Python有框架,并行分布式爬虫,缓存数据库,代理IP,负载均衡等问题优化爬虫项目,爬虫产品的开发比R要NB一些,不过业务爬虫R与Python基本差不多