百度爬虫会按照http协议规范来进行相应处理。对于常见的http返回码,百度的处理逻辑如下:404表示网页已经失效,会从搜索结果中删除;503表示该网页暂时不可访问,会在短时间内再次访问,但长期返回503则会认为是失效链接;403表示网页当前禁止访问,如果是新发现的url则会短期内再次检查,如果是已收录的url则也不会直接删除。当遇到站点迁移、域名更换等情况时,建议使用301返回码。站点临时关闭时,不要直接返回404而是建议使用503状态。如果希望百度只收录部分内容,则建议新发内容暂时返回403,等审核或处理后再返回正常状态码。更多百度返回代码请参考http协议中的定义。