python爬虫的时候,需要爬取的数据出现在javascript的变量里,只能通过正则获取么?

比如网址:http://gsxt.lngs.gov.cn/saicp…
里面的内容是:
<script type=”text/javascript“>
$(document).ready(function(){tzr_paging([{“blicno”:””,”invid”:”1017186481″,”countryName”:””,”invtypeName”:”自然人股东”,”sconformName”:”1|”,”respformName”:””,”dom”:”辽宁省铁岭市银州区广裕街7栋2单元601室”,”blictypeName”:”中华人民共和国居民身份证”,”inv”:”张淑坤”},{“blicno”:””,”invid”:”1017186480″,”countryName”:””,”invtypeName”:”自然人股东”,”sconformName”:”1|”,”respformName”:””,”dom”:”辽宁省铁岭市银州区广裕街农科巷阳光园六区三期15号楼2单元602室”,”blictypeName”:”中华人民共和国居民身份证”,”inv”:”刘莹雪”}],”2″,”211202000012015032445494″,”false”);}); </script>

我要获取这个tzr_paging里的内容,除了正则还有别的方法获取这个数组么?

你可以把字典起始部分的字符串抠出来,然后用eval得到这个字典

s = "{'a':1,'b':2}"
d = eval(s)
print d
# than you get dictionary d: {'a': 1, 'b': 2}

肯定是要把当做字符串来处理了。

可以用 phantomjs 去执行这段 js,然后把结果回调出来

http://phantomjs.org/

  • django如何实现博客标签?
  • React中dangerouslySetInnerHTML渲染后层级问题
  • 如何在嵌入了CEF的MFC程序中实现javascript与C++的相互调用?
  • 可编辑(contenteditable)div的一个问题
  • python查询数据库最新数据
  • canvas 获取上下文后为什么要 save() 保存上下文环境?
  • nodejs函数返回值为undefined,不太明白为什么。
  • 如何提取汉字对应的GBK码
  • 前端怎么实现像chrome浏览器的百分比缩放同样的效果?
  • 双语或者多语言网站的实现原理是什么
  • 新手求解答,webpack