规则是,第一层抓取淘宝搜索页面,URL线索到第二层规则。 第二层只抓宝贝页面上的基本信息。(如:价格,销量)
-------------------------
常用电脑:清除所有cookie和浏览历史,尝试不登账号和登账号都会出现要求输入验证码。
远程电脑:完全没有用过的电脑,有adsl拨号,配置好用火狐抓,还是出现验证码(不登陆账号)。
crontab配置,参数试过5-6次都是慢的。目前还是这样。
-----------------以上是发帖之前的操作。
之后我把第一下层的链接稍微调整下(抓取的位置换了,URL有一点变化)。
然后抓取情况一点,变成天猫的商品一定需要登陆。 集市店的商品可以直接抓取。
(中间的变化就是2个:1.换了规则抓其他数据 2.改了抓取第一层的规则的url位置。) 情况好一点,问题还是在。
gooseeker_info 发表于 2016-1-7 19:02
我们测试了,现在淘宝封锁很厉害,必须要放慢速度,或者多用一些电脑。把抓取成本提高了 ...
非常感谢测试的数据,这样对比我就清楚,应该不是我个人操作或者设置的问题呢。
因为是我一个人在摸索,所以一直没有找到相对比较好的解决方法。
原因是,每次用一台电脑抓取数据(登陆账号)电脑上验证码显示不出来,登陆了可能1-2个小时就会再次弹出登录框电脑上验证码显示不出来,要求登陆(输入密码)。【只要出现登录框,就抓取不到销量,所以要一直看着。出现了就手动登陆。现在抓数据的过程只能用“艰难”来形容。
1.如果淘宝这种问题暂时没有办法解决吧话,
请问是否有方法可以解决 登陆账号后不再次出现登录框?
(如果这个问题可以解决,至少还是可以抓数据的。 淘宝现在这种情况上个月还没有,现在封锁力度特别大。)
2.这个问题外,我还想问的是,您这边是否有解决方案呢,具体可以交流下。
版权声明
本文仅代表作者观点。
本文系作者授权发表,未经许可,不得转载。
发表评论