Brightdata:Search Engine Crawler (SERP)搜索引擎爬虫问答
问题: Bright Data搜索引擎爬虫支持哪些业务?
答: 搜索引擎爬虫适合任何“单一查询会话”的业务,例如:
* 搜索
* 购物
* 地图
* 酒店
* 图片
* 评论
问题: Bright Data搜索引擎爬虫的优点?
答:
1.JSON:以 JSON 或 HTML 格式获取响应,与你的系统可以轻松完成集成对接
2.基于成功付费:您只需为成功的请求付费
3.支持定制地理区域:使用 UULE、country 或 city 参数,我们将根据你选择的定位自动启动基于你选择地理位置的请求
4.超快的响应时间:不到 5 秒的出色响应时间
5.异步请求:使用唯一 ID 发送您的请求,无延迟并批量接收结果
问题: Bright Data搜索引擎爬虫常见用例有哪些?
答:
关键字研究:绘制公司在不同位置的各种关键字的排名
品牌保护:跟踪公司品牌和商标的最佳结果
价格比较:在网上购物网站上搜索产品并比较不同供应商之间的价格
市场调查:收集有关公司、联系人、地点等的信息
检测版权侵权:搜索图像或其他受版权保护的内容
广告情报:查看针对不同国家/地区的关键字展示了哪些广告,包括(双击和 Google 广告服务)这个广告运作详情
问题: Bright Data搜索引擎爬虫是怎么工作的?
答:
1:面板确定访问参数
2:根据你的特定参数发送请求
3:得到json或者html格式的数据
4:异步或者实时发送数据到客户
问题:Bright Data搜索引擎爬虫使用注意事项
答:
* 不支持会话连续性,因为每个请求都是从不同的 IP 发送的
* 必须使用 HTTP 发送请求(超级代理将转换为 HTTPS)
* 该服务仅通过 API 提供(例如不支持 Chrome 扩展程序)
问题:为什么将说Bright Data 更适用于搜索引擎爬虫?
答:
搜集准确数据:通过我们的住宅代理网络,您能以真人身份通过搜索引擎爬虫获得绝对准备的数据。
降低费用:既不用支付额外的IP和数据收集工程师费用,也没有维护设备的开销。
开放式接口:可轻松集成到第三方爬虫软件。
无平台管理难题:每一次的请求都从不同的IP发出,确保IP不会被禁止。
满足大批量要求:Bright Data数据不但能满足你不断增加的流量需求,还能轻松应对高峰流量期。
大量真人住宅IP:覆盖全球的7200万多个I真人使用的IP
问题: 怎么使用Bright Data搜索引擎爬虫?
答:Bright Data 的 API 兼容多种编码语言且易于集成
例如这个购物的案例:
curl -v --proxy zproxy.lum-superproxy.io:22225 --proxy-user lum-customer-{用户名}-zone-{通道名}:{密码} 'http://www.google.com/search?q=lego+transformers&tbm=shop' -o results_page.html
用户名,通道名和密码在你的通道详情页里可以看到
Bright Data搜索引擎爬虫常见错误码及其处理方式
1.* 407: Auth Failed Various auth errors
可能原因及解决方案:错误的用户名/密码、使用设备的IP未列入白名单、通道状态是禁用状态、无权请求指定的城市/ASN/区域等
2.* 502: No peers available
可能原因及解决方案:目前我们在您请求的区域中没有可执行的节点
3.* 502: only http requests are allowed
可能原因及解决方案:只允许http,请确认正确
4.* 502: one of these parameters must be present: q, image_url Mandatory param is missing
可能原因及解决方案:q参数用于 /search,image_url参数用于/searchbyimage,要必填< /p>
5.* 502: the inputted country value (gl parameter) does not exist, please enter a valid 2-letter country code
可能原因及解决方案:输入的国家/地区值(gl 参数)不存在,请输入有效的 2 个字母的国家/地区代码
6.* 502: the inputted language value (hl parameter) does not exist, please enter a valid 2-letter language code
可能原因及解决方案:输入的语言值(hl 参数)不存在,请输入有效的 2 个字母的语言代码
7.* 502: SERP is currently disabled We disabled Search Engine Crawler feature due to some reason
可能原因及解决方案:SERP 目前被禁用,由于某种原因禁用了搜索引擎爬虫功能,具体和账户经历沟通
8.* 502: text/shopping/image search is currently disabled We disabled specific Search Engine Crawler type due to some reason
可能原因及解决方案:文本/购物/图片搜索目前已禁用,由于某种原因禁用了搜索引擎爬虫功能,具体和账户经历沟通
9.* 502: strict mode, query params not supported: gws_rd If you pass &lum_strict=1 as query parameter, we'll check that all parameters will be passed to Search Engine without changes, otherwise we silently ignore unknown parameters
可能原因及解决方案:严格模式,不支持查询参数:gws_rd。如果您将 &lum_strict=1 作为查询参数传递,我们将检查所有参数是否原封不动地传递给搜索引擎,否则我们会默认忽略未知参数
10.* 502: strict mode, important headers not supported: user-agent If you pass &lum_strict=1 as query parameter, we'll check that all headers will be passed to Search Engine without changes, otherwise we silently ignore unknown headers
可能原因及解决方案:严格模式,不支持标头参数:user-agent。如果您将 &lum_strict=1 作为查询参数传递,我们将检查所有标头是否原封不动地传递给搜索引擎,否则我们会默认忽略未知标头参数
11.* 502: start/gbv parameter is not supported for mobile platform
可能原因及解决方案:移动平台不支持 start/gbv 参数
12.* 502: only start<100 and divisible by 10 is supported
可能原因及解决方案:仅支持 start<100 且可被 10 整除
13.* 502: timeout Connection to peer timed out
可能原因及解决方案:与不同的节点重试几次后还是没有请求通过
14.* 502: captcha_last_attempt Failed with captcha response (403/redirect to captcha) after several retries
可能原因及解决方案:验证码多次尝试没通过(403/重定向验证码)
15.* 502: response_not_200 Failed with erroneous response (4xx/5xx) from Search Engine after several retries
可能原因及解决方案:多次重试后,来自搜索引擎的响应 (4xx/5xx) 还是失败