Brightdata:Search Engine Crawler (SERP)搜索引擎爬虫问答

问题: Bright Data搜索引擎爬虫支持哪些业务?

答: 搜索引擎爬虫适合任何“单一查询会话”的业务,例如:

* 搜索

* 购物

* 地图

* 酒店

* 图片

* 评论

问题: Bright Data搜索引擎爬虫的优点?

答:

1.JSON:以 JSON 或 HTML 格式获取响应,与你的系统可以轻松完成集成对接

2.基于成功付费:您只需为成功的请求付费

3.支持定制地理区域:使用 UULE、country 或 city 参数,我们将根据你选择的定位自动启动基于你选择地理位置的请求

4.超快的响应时间:不到 5 秒的出色响应时间

5.异步请求:使用唯一 ID 发送您的请求,无延迟并批量接收结果

问题: Bright Data搜索引擎爬虫常见用例有哪些?

答:

关键字研究:绘制公司在不同位置的各种关键字的排名

品牌保护:跟踪公司品牌和商标的最佳结果

价格比较:在网上购物网站上搜索产品并比较不同供应商之间的价格

市场调查:收集有关公司、联系人、地点等的信息

检测版权侵权:搜索图像或其他受版权保护的内容

广告情报:查看针对不同国家/地区的关键字展示了哪些广告,包括(双击和 Google 广告服务)这个广告运作详情

问题: Bright Data搜索引擎爬虫是怎么工作的?

答:

1:面板确定访问参数

2:根据你的特定参数发送请求

3:得到json或者html格式的数据

4:异步或者实时发送数据到客户

问题:Bright Data搜索引擎爬虫使用注意事项

答:

* 不支持会话连续性,因为每个请求都是从不同的 IP 发送的

* 必须使用 HTTP 发送请求(超级代理将转换为 HTTPS)

* 该服务仅通过 API 提供(例如不支持 Chrome 扩展程序)

问题:为什么将说Bright Data 更适用于搜索引擎爬虫?

答:

搜集准确数据:通过我们的住宅代理网络,您能以真人身份通过搜索引擎爬虫获得绝对准备的数据。

降低费用:既不用支付额外的IP和数据收集工程师费用,也没有维护设备的开销。

开放式接口:可轻松集成到第三方爬虫软件。

无平台管理难题:每一次的请求都从不同的IP发出,确保IP不会被禁止。

满足大批量要求:Bright Data数据不但能满足你不断增加的流量需求,还能轻松应对高峰流量期。

大量真人住宅IP:覆盖全球的7200万多个I真人使用的IP

问题: 怎么使用Bright Data搜索引擎爬虫?

答:Bright Data 的 API 兼容多种编码语言且易于集成

例如这个购物的案例:

curl -v --proxy zproxy.lum-superproxy.io:22225 --proxy-user lum-customer-{用户名}-zone-{通道名}:{密码} 'http://www.google.com/search?q=lego+transformers&tbm=shop' -o results_page.html

用户名,通道名和密码在你的通道详情页里可以看到

Bright Data搜索引擎爬虫常见错误码及其处理方式

1.* 407: Auth Failed
Various auth errors

可能原因及解决方案:错误的用户名/密码、使用设备的IP未列入白名单、通道状态是禁用状态、无权请求指定的城市/ASN/区域等

2.* 502: No peers available


可能原因及解决方案:目前我们在您请求的区域中没有可执行的节点

3.* 502: only http requests are allowed

可能原因及解决方案:只允许http,请确认正确

4.* 502: one of these parameters must be present: q, image_url
Mandatory param is missing

可能原因及解决方案:q参数用于 /search,image_url参数用于/searchbyimage,要必填< /p>

5.* 502: the inputted country value (gl parameter) does not exist, please enter a valid 2-letter country code

可能原因及解决方案:输入的国家/地区值(gl 参数)不存在,请输入有效的 2 个字母的国家/地区代码

6.* 502: the inputted language value (hl parameter) does not exist, please enter a valid 2-letter language code

可能原因及解决方案:输入的语言值(hl 参数)不存在,请输入有效的 2 个字母的语言代码

7.* 502: SERP is currently disabled
We disabled Search Engine Crawler feature due to some reason

可能原因及解决方案:SERP 目前被禁用,由于某种原因禁用了搜索引擎爬虫功能,具体和账户经历沟通

8.* 502: text/shopping/image search is currently disabled
We disabled specific Search Engine Crawler type due to some reason

可能原因及解决方案:文本/购物/图片搜索目前已禁用,由于某种原因禁用了搜索引擎爬虫功能,具体和账户经历沟通

9.* 502: strict mode, query params not supported: gws_rd
 If you pass &lum_strict=1 as query parameter, we'll check that all parameters will be passed to Search Engine without changes, otherwise we silently ignore unknown parameters

可能原因及解决方案:严格模式,不支持查询参数:gws_rd。如果您将 &lum_strict=1 作为查询参数传递,我们将检查所有参数是否原封不动地传递给搜索引擎,否则我们会默认忽略未知参数

10.* 502: strict mode, important headers not supported: user-agent
If you pass &lum_strict=1 as query parameter, we'll check that all headers will be passed to Search Engine without changes, otherwise we silently ignore unknown headers

可能原因及解决方案:严格模式,不支持标头参数:user-agent。如果您将 &lum_strict=1 作为查询参数传递,我们将检查所有标头是否原封不动地传递给搜索引擎,否则我们会默认忽略未知标头参数

11.* 502: start/gbv parameter is not supported for mobile platform

可能原因及解决方案:移动平台不支持 start/gbv 参数

12.* 502: only start<100 and divisible by 10 is supported

可能原因及解决方案:仅支持 start<100 且可被 10 整除

13.* 502: timeout
Connection to peer timed out

可能原因及解决方案:与不同的节点重试几次后还是没有请求通过

14.* 502: captcha_last_attempt
Failed with captcha response (403/redirect to captcha) after several retries

可能原因及解决方案:验证码多次尝试没通过(403/重定向验证码)

15.* 502: response_not_200
 Failed with erroneous response (4xx/5xx) from Search Engine after several retries

可能原因及解决方案:多次重试后,来自搜索引擎的响应 (4xx/5xx) 还是失败

文章列表