Phantomjs爬取百度百科使用代理proxy后爬取页面信息缺失,未能加载js。

1、问题描述

想要利用Phantomjs爬取百度百科,在不使用代理的情况下,能够爬取JS加载后的一些信息,比如收藏量等,但是,在使用了代理后,这些信息都没有加载,显示为0,以下是具体的代码,由于是刚刚入手爬虫,不知道错在哪里了,求大神指点?

2、代码
使用代理
if name == “__main__”:

url = 'http://baike.baidu.com/link?url=LsKzFDa_VnsXY3jc5qnIEtAp8wFMuNr9pmAulJcUIIcO7PCT7U5OTj6DhZbvJE_hxag0Oy2_s4JXMrZlR0m6JyZTXVLb44_bQd1s5O1fWcy'
service_args = ['--proxy=http://proxy.com:xxxx','--proxy-auth=user:pass','--proxy-type=http']
browser = webdriver.PhantomJS(service_args=service_args)
browser.get(url)
page = browser.page_source
print page

若不使用代理
if name == “__main__”:

url = 'http://baike.baidu.com/link?url=LsKzFDa_VnsXY3jc5qnIEtAp8wFMuNr9pmAulJcUIIcO7PCT7U5OTj6DhZbvJE_hxag0Oy2_s4JXMrZlR0m6JyZTXVLb44_bQd1s5O1fWcy'
browser = webdriver.PhantomJS()
browser.get(url)
page = browser.page_source
print page

或许是你的代理服务器问题,你尝试使用requests库测试下

  • python正则表达式难题。
  • python3.5 urllib.parse.unquote 乱码
  • python设置了值更改语句,为什么没起作用?
  • 这段代码如何更pythonic
  • 这个正则怎么匹配,又有%又有数字不确定位置
  • Python:如何只获取响应头中的location值
  • Python-Pandas-DataFrame 如何把df变为以数据中的某一列为index
  • powershell中如何启动软件和调用python脚本?
  • 抓取一个小说网站嵌入式广告内容
  • python 无法找到模块?
  • 有人用过pymysql么?遇到个问题