0

    请问抓取淘宝平台商品页面的数据,为什么很快就被淘宝检测出来然后出现验证码

    2023.07.15 | admin | 133次围观

    规则是,第一层抓取淘宝搜索页面,URL线索到第二层规则。 第二层只抓宝贝页面上的基本信息。(如:价格,销量)

    -------------------------

    目前遇到宝贝页面出现登录框或者验证码。 我尝试过如下操作

    常用电脑:清除所有cookie和浏览历史,尝试不登账号和登账号都会出现要求输入验证码。

    远程电脑:完全没有用过的电脑,有adsl拨号,配置好用火狐抓,还是出现验证码(不登陆账号)。

    crontab配置,参数试过5-6次都是慢的。目前还是这样。

    -----------------以上是发帖之前的操作。

    之后我把第一下层的链接稍微调整下(抓取的位置换了,URL有一点变化)。

    然后抓取情况一点,变成天猫的商品一定需要登陆。 集市店的商品可以直接抓取。

    (中间的变化就是2个:1.换了规则抓其他数据 2.改了抓取第一层的规则的url位置。) 情况好一点,问题还是在。

    gooseeker_info 发表于 2016-1-7 19:02

    我们测试了,现在淘宝封锁很厉害,必须要放慢速度,或者多用一些电脑。把抓取成本提高了 ...

    非常感谢测试的数据,这样对比我就清楚,应该不是我个人操作或者设置的问题呢。

    因为是我一个人在摸索,所以一直没有找到相对比较好的解决方法。

    原因是,每次用一台电脑抓取数据(登陆账号)电脑上验证码显示不出来,登陆了可能1-2个小时就会再次弹出登录框电脑上验证码显示不出来,要求登陆(输入密码)。【只要出现登录框,就抓取不到销量,所以要一直看着。出现了就手动登陆。现在抓数据的过程只能用“艰难”来形容。

    1.如果淘宝这种问题暂时没有办法解决吧话,

    请问是否有方法可以解决 登陆账号后不再次出现登录框?

    (如果这个问题可以解决,至少还是可以抓数据的。 淘宝现在这种情况上个月还没有,现在封锁力度特别大。)

    2.这个问题外,我还想问的是,您这边是否有解决方案呢,具体可以交流下。

    版权声明

    本文仅代表作者观点。
    本文系作者授权发表,未经许可,不得转载。

    发表评论