中文分词

    • 2023.07.29 | admin | 178次围观
      当我搜索【牙签】,惊了!
      首先是 重复和失效 问题,对于类似百度这样的大型 spider 系统,因为随时都存在网页被修改、删除、失效或出现新的超链接的可能。因此,不是把网站抓取过来就完事了,而是要维护一个网址库和页面库,保证库内网页的真实有效、不冗余。 还有其他问题比如: 如何保证抓取网站的质量?应拒绝垃圾广告、不良信息网站。 如何保证抓取友好性?应控制蜘蛛抓取的频率和深度,别蜘蛛太重把整个网搞破了。 如何使抓取的覆盖度更大?抓取一些原本抓不到的数据孤岛。 当然,问题远远不止这些,设计搜索引擎的抓取系...
    1