Tag: 网页爬虫

尝试根据session id来登陆网站失败。

我模拟登陆学校的教务网成功后,想完成一个自动下载学期成绩的脚本出现一个问题自己无法解决。如果想要得到学期成绩等需要先跳转到成绩的页面这里没有发现post data,所以我自己也是直接连接的这个网页只能爬取到这个页面继续提交form data后可以得到这样的网页在得到第一个网页的代码基础上我提交form data score_values={‘__VIEWSTATE’:’xxxxxxxxx’#太长了 ‘__VIEWSTATEGENERATOR’:’DB0F94E3′, ‘ddlXN’:”, ‘ddlXQ’:”, ‘Button1′:’按学期查询’} 竟然会出现这个错误我用time.sleep(10)间隔requests的时间也没有成功,referer都有在headers中添加。希望可以可以指出错在了那里。

分析某网站的查询流程并模拟请求遇到瓶颈

描述前声明:这个问题的解决可能需要实操,建议有爬虫或反爬虫经验,最好熟练使用chrome或Firefox相关工具(比如postman)的童鞋帮忙分析看一下,或者有相关经验的给出一些理论指导也行~另,对于解决问题的回答,我会给你打赏(2位数),还请不要拒绝。 我想要分析一个航空公司订票流程的网络请求,以便于能够写一个接口自动化查询相关数据。一个关键请求始终没法模拟出来,想知道盲点在哪里。直接先贴网站:http://www.vietjetair.com/Sites/Web/zh-CN/Home我分析该网站订票流程如下:1,在首页选择出发点,目的地,出发日期之后,点击搜索,浏览器发出第1个请求(post,参数是出发地、目的地、出发日期加上viewstate等乱七八糟的),该请求返回一个html。2,上面的html里面有个form,网页加载完毕自动提交,form的内容就是很规范的出发地、目的地、出发日期等信息,form自动提交便是第2个请求(post),按道理讲,这个请求就可以返回结果信息了,但是它偏偏没有,它也会返回一个html,里面有个form。如果是第一次查询还会设定一个特定cookie。3,这个form里面的参数就比较看不懂了,这个form也会自动提交发出第3个请求(post),这个请求返回的是一个302 重定向,定向到一个固定的url,然后拿着那个特定cookie去get这个url,就能获取查询结果。 我遇到问题是,我用postman 模拟了第2个请求,能拿到cookie和form内容,但是在模拟第3个请求时,返回的也是302,但url就不是正确的URL了,总是首页。即便我在用浏览器刚刚获得第3个请求的正确结果,再用postman拿着一模一样的参数去模拟,还是不会返回正确结果。

有爬过facebook数据的同学么?

主要抓用户发布的信息。用graph,FQL的授权一直搞不定好心塞 – –求介绍经验

关于baidu蜘蛛无法抓取github page的问题

我的博客http://blog.whyun.com是github page上做的cname,但是我在百度的站长工具中做抓取测试,发现百度蜘蛛无法访问这个网站: 以下是百度Spider抓取结果及页面信息: 提交网址: http://blog.whyun.com/ 抓取网址: http://blog.whyun.com/ 抓取UA: Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) 抓取时间: 2015-06-22 18:32:00 网站IP: 103.245.222.133 报错 下载时长: 0.372秒 抓取异常信息: 拒绝访问 查看帮助 返回HTTP头: HTTP/1.1 403 Forbidden Cache-Control: no-cache Content-Type: text/html Transfer-Encoding: chunked Accept-Ranges: bytes Date: Mon, 22 Jun 2015 10:32:02 GMT Via: 1.1 varnish Connection: close X-Served-By: cache-lax1424-LAX X-Cache: MISS X-Cache-Hits: 0 X-Timer: S1434969122.006655,VS0,VE67 […]

抓取微信公共主页的文章

获取大量的类似url: http://mp.weixin.qq.com/mp/appmsg/show?__biz=MjM5ODIyMTE0MA==&appmsgid=10000382&itemidx=1#wechat_redirect

爬虫如何保存已经访问过的url

话说同志们在爬取数据的时候如何保存已经访问过的url和队列?对于爬取过的url,我使用redis的set来保存,访问队列是用list来保存,数据量是直线上升,内存不大,也只有4g,扛不住。不知道以前的方法是什么?

jQuery网页爬虫

如何只用jquery写一个网页爬虫

爬虫的数据库该怎么设计?

毕设做一个小型搜索引擎,爬虫系统的数据库该怎样设计?基于phantomjs实现抓取,入库后,剔除重复数据,利用开源的机器学习库做中文分词,然后形成索引。最后再做一套搜索系统。

爬虫到的职位信息分类问题

现在遇到了一个问题需要大家帮忙分析一下。 背景介绍: 现在想完成一个利用爬虫获取职位信息,并进行汇总统计查询的应用。并且爬虫部分没什么大问题了。已经能获取并存入数据库了。现在的测试都是用智联招聘测试的。 问题描述: 如果现在想完成一个分类搜索的功能。比如点击某个职位,就会搜索这个职位的信息这样的功能。我该如何获取到一条条数据的职位分类呢?爬取到的HTML上没有相关的分类信息。这是爬取的HTML中关于一条职位的信息内容: <table cellpadding=”0″ cellspacing=”0″ width=”853″ class=”newlist”> <tbody> <tr> <td class=”zwmc” style=”width: 250px;”> <input type=”checkbox” name=”vacancyid” value=”CC265613219J90250003000_538_1_03_201__1_” onclick=”zlapply.uncheckAll(‘allvacancyid’)”> <div style=”width: 224px;*width: 218px; _width:200px; float: left”> <a style=”font-weight: bold” par=”ssidkey=y&amp;ss=201&amp;ff=03″ href=”http://jobs.zhaopin.com/265613219250003.htm” target=”_blank”>半导体FAE测试工程师</a> </div> </td> <td style=”width: 60px;” class=”fk_lv”><span></span></td> <td class=”gsmc”><a href=”http://company.zhaopin.com/%E4%B8%AD%E8%8C%82%E7%94%B5%E5%AD%90%28%E4%B8%8A%E6%B5%B7%29%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8_CC265613219.htm” target=”_blank”>中茂电子(上海)有限公司</a></td> <td class=”zwyx”>面议</td> <td class=”gzdd”>上海 – 徐汇区</td> <td class=”gxsj”><span>04-18</span><a class=”newlist_list_xlbtn” href=”javascript:;”></a></td> </tr> […]

为什么有些没人用的网址PR那么高

如题,这些即将过期的域名很多连网页都打不开,或Alexa显示是IANA保留地址,也没啥历史PV可查,为什么google PR却那么高?