如何爬取京东手机上万的商品数据,这个神器可以帮你

作者&投稿:彩剑 (若有异议请与网页底部的电邮联系)
~ Charles是一个网络抓包工具,我们可以用它来做App的抓包分析,得到App运行过程中发生的所有网络请求和响应内容,这就和Web端浏览器的开发者工具Network部分看到的结果一致。

相比Fiddler来说,Charles的功能更强大,而且跨平台支持更好。所以我们选用Charles作为主要的移动端抓包工具,用于分析移动App的数据包,辅助完成App数据抓取工作。

一、本节目标

本节我们以京东App为例,通过Charles抓取App运行过程中的网络数据包,然后查看具体的Request和Response内容,以此来了解Charles的用法。

二、准备工作

请确保已经正确安装Charles并开启了代理服务,手机和Charles处于同一个局域网下,Charles代理和CharlesCA证书设置好。

三、原理

首先Charles运行在自己的PC上,Charles运行的时候会在PC的8888端口开启一个代理服务,这个服务实际上是一个HTTP/HTTPS的代理。

确保手机和PC在同一个局域网内,我们可以使用手机模拟器通过虚拟网络连接,也可以使用手机真机和PC通过无线网络连接。

设置手机代理为Charles的代理地址,这样手机访问互联网的数据包就会流经Charles,Charles再转发这些数据包到真实的服务器,服务器返回的数据包再由Charles转发回手机,Charles就起到中间人的作用,所有流量包都可以捕捉到,因此所有HTTP请求和响应都可以捕获到。同时Charles还有权力对请求和响应进行修改。

四、抓包

初始状态下Charles的运行界面如下图所示。

Charles会一直监听PC和手机发生的网络数据包,捕获到的数据包就会显示在左侧,随着时间的推移,捕获的数据包越来越多,左侧列表的内容也会越来越多。

可以看到,图中左侧显示了Charles抓取到的请求站点,我们点击任意一个条目便可以查看对应请求的详细信息,其中包括Request、Response等内容。

接下来清空Charles的抓取结果,点击左侧的扫帚按钮即可清空当前捕获到的所有请求。然后点击第二个监听按钮,确保监听按钮是打开的,这表示Charles正在监听App的网络数据流,如下图所示。

这时打开手机京东,注意一定要提前设置好Charles的代理并配置好CA证书,否则没有效果。

打开任意一个商品,如iPhone,然后打开它的商品评论页面,如下图示。

不断上拉加载评论,可以看到Charles捕获到这个过程中京东App内发生的所有网络请求,如下图所示。

左侧列表中会出现一个api.m.jd.com链接,而且它在不停闪动,很可能就是当前App发出的获取评论数据的请求被Charles捕获到了。我们点击将其展开,继续上拉刷新评论。随着上拉的进行,此处又会出现一个个网络请求记录,这时新出现的数据包请求确定就是获取评论的请求。

为了验证其正确性,我们点击查看其中一个条目的详情信息。切换到Contents选项卡,这时我们发现一些JSON数据,核对一下结果,结果有commentData字段,其内容和我们在App中看到的评论内容一致,如下图所示。

这时可以确定,此请求对应的接口就是获取商品评论的接口。这样我们就成功捕获到了在上拉刷新的过程中发生的请求和响应内容。

五、分析

现在分析一下这个请求和响应的详细信息。首先可以回到Overview选项卡,上方显示了请求的接口URL,接着是响应状态Status Code、请求方式Method等,如下图所示。

这个结果和原本在Web端用浏览器开发者工具内捕获到的结果形式是类似的。

接下来点击Contents选项卡,查看该请求和响应的详情信息。

上半部分显示的是Request的信息,下半部分显示的是Response的信息。比如针对Reqeust,我们切换到Headers选项卡即可看到该Request的Headers信息,针对Response,我们切换到JSON TEXT选项卡即可看到该Response的Body信息,并且该内容已经被格式化,如下图所示。

由于这个请求是POST请求,我们还需要关心POST的表单信息,切换到Form选项卡即可查看,如下图所示。

这样我们就成功抓取App中的评论接口的请求和响应,并且可以查看Response返回的JSON数据。

至于其他App,我们同样可以使用这样的方式来分析。如果我们可以直接分析得到请求的URL和参数的规律,直接用程序模拟即可批量抓取。

六、重发

Charles还有一个强大功能,它可以将捕获到的请求加以修改并发送修改后的请求。点击上方的修改按钮,左侧列表就多了一个以编辑图标为开头的链接,这就代表此链接对应的请求正在被我们修改,如下图所示。

我们可以将Form中的某个字段移除,比如这里将partner字段移除,然后点击Remove。这时我们已经对原来请求携带的Form Data做了修改,然后点击下方的Execute按钮即可执行修改后的请求,如下图所示。

可以发现左侧列表再次出现了接口的请求结果,内容仍然不变,如下图所示。

删除Form表单中的partner字段并没有带来什么影响,所以这个字段是无关紧要的。

有了这个功能,我们就可以方便地使用Charles来做调试,可以通过修改参数、接口等来测试不同请求的响应状态,就可以知道哪些参数是必要的哪些是不必要的,以及参数分别有什么规律,最后得到一个最简单的接口和参数形式以供程序模拟调用使用。

七、结语

以上内容便是通过Charles抓包分析App请求的过程。通过Charles,我们成功抓取App中流经的网络数据包,捕获原始的数据,还可以修改原始请求和重新发起修改后的请求进行接口测试。

知道了请求和响应的具体信息,如果我们可以分析得到请求的URL和参数的规律,直接用程序模拟即可批量抓取!

手机爬虫非常有意思,而且可以爬取的数据非常多,当然还有很多东西要学。以后我也会写一些实战的有趣案例给大家。

八爪鱼采集器是一款功能强大的网页数据采集器,可以帮助您快速、高效地采集京东手机上万的商品数据。以下是一般的采集步骤:1. 打开八爪鱼采集器,并创建一个新的采集任务。2. 在任务设置中,输入京东手机的网址(www.jd.com)作为采集的起始网址。3. 配置采集规则。可以使用智能识别功能,让八爪鱼自动识别京东手机页面的数据结构,或者手动设置采集规则。4. 如果手动设置采集规则,可以通过鼠标选择页面上的数据元素,如商品名称、价格、评论数等,并设置相应的采集规则,以确保正确获取所需的数据。5. 设置翻页规则。由于京东手机的商品可能分页显示,需要设置八爪鱼采集器自动翻页,以获取更多的数据。6. 运行采集任务。确认设置无误后,可以启动采集任务,让八爪鱼开始采集京东手机上的商品数据。7. 等待采集完成。八爪鱼将根据设置的规则自动抓取页面上的数据,并将其保存到本地或导出到指定的数据库等。八爪鱼采集器支持将采集结果导出为Excel、CSV、HTML等格式,方便您进行数据分析和处理。同时,八爪鱼采集器还提供数据定制服务,可以根据您的需求进行评估和定制。如有需要,请联系我们的人工客服以获取更多信息。八爪鱼电商采集覆盖全球主流电商平台数据,涵盖90%以上数据类型及字段,帮助用户进行价格监控、电商选品、竞品分析、消费者洞察等,请前往官网了解更多详情。


边防战士的感人事例
靖磊磊说完,将背包绳系在自己腰上,背上陷入半昏迷状态的于辉,指挥大家撤回哨所。 向哨所攀登的“路”,是一个80度左右的陡坡。杨恒升拿着铁锹边往上爬边铲雪开路,副班长梁波带着杜江南、赵勇边走边将脚下的积雪用劲踩实。前面的战士每上一步,就将靖班长腰上的背包绳往上拖一步。走在最后的王鑫双手插进积雪...

智能手机用户需求模型及需求变化分析
首先,爬取华为商城上的华为手机的评论及相关信息.随后,对每条评论打上17个需求维度的正性和负性标签,并和京东商城中的华为手机进行比较,发现不同平台之间虽然有所差异,但具有一定的稳定性.最后,利用时间序列法分析了不同价格手机的需求变化趋势. 本研究得到以下结论: 1)智能手机用户需求模型自底向上依次...

京东上市的故事
京东商城名字里的“京”字,即取自龚小京,“东”字则取自刘强东。2001年6月,京东成为光磁产品领域最具影响力的代理商,销售量及影响力在行业内首屈一指。?1998年6月18日,刘强东先生在中关村创业,成立京东公司。“京东”的名字是由刘强东和他初恋女友龚小京的名字组成的。京东商城的名字里的“京”字,即取自龚小京...

年薪35万在北京是什么概念?
何为勉强?那是因为你的这份收入并不一定能在职场上(或马斯洛高阶需求上)带来足够的安全感、荣誉感、满足感。比上不足比下有余是常态,爬上7位数有如愚公移山,爬不上去就意味着你头上永远有人对你颐气指使,而你只能迫于生活的淫威勉强屈就。 最接近的例子?余欢水?或者比他好点。 北京的35万年薪,永远比不上...

有没有什么好用的借款平台?
360借条是360金融旗下的个人信用贷款产品,支持的最高贷款额度为20万,有借款需求的用户可以通过360借条APP,或微信小程序、微信公众号等渠道申请借款,据用户反馈,用户选择的借贷模式不同,利息计算方式也会有所不同,具体贷款费用以实际利率为准。 3、京东金条 京东金条没有自己的征信数据,依据的是芝麻信用体系。金条...

年薪35万在北京是什么概念?
何为勉强?那是因为你的这份收入并不一定能在职场上(或马斯洛高阶需求上)带来足够的安全感、荣誉感、满足感。比上不足比下有余是常态,爬上7位数有如愚公移山,爬不上去就意味着你头上永远有人对你颐气指使,而你只能迫于生活的淫威勉强屈就。 最接近的例子?余欢水?或者比他好点。 北京的35万年薪,永远比不上...

关于刘强东的励志故事
但刘强东不甘心,于是两年之后,1998年6月18日,刘强东拿着1.2万元在中关村苏州街上的银丰大厦租了一个摊位,摊位起名叫“京东多媒体”,主要卖刻录机等电子产品。他还花500元在中关村电脑城买了一台二手电脑,一辆二手三轮车,开始了自己的第二次创业。 2000年刻录机单价跌得厉害,从2000多块一下子跌到800多块,毛利从...

接替刘强东出任京东集团CEO,徐雷有何过人之处,能得到大东子的信任?_百 ...
徐雷能够登上这个位置,并不是因为幸运,而是因为他的实力,他的能力足够让他爬到这样的位置,成为京东的接班人。虽然之前徐雷离开过京东,但是他重新回来了,说明他很懂得审时度势,能够分得清这个时候的形势,包括他当时的618主题,他的坚持最后换来了他的成功。早先的接班人并不只徐雷一个人选早先...

如何克制自己的消费欲望?
第三,减少自己上街、逛淘宝、逛京东等等的次数,把和微信支付宝绑定的银行卡清空,或者存入极少的钱。这样想买想付款的时候一看没钱就不买了,有一些不必要的东西,等你回头再去付款的时候就觉得没用或者是又看不上了,也就彻底不买了。以上是我自己控制消费欲望的一些小方法,希望能够帮助到你。总之...

换算思维+送礼思维
京东,嘀嘀打车都是这种模式。赔钱式的营销模式,需要具备换算思维,否则根本不会玩,不敢玩这个高级营销模式。像京东的刘强东就是深谙换算思维的人,他在前面搭几百元获取一个客户,只要能够出单。他们赔越多,卖越多。他们越高兴。为什么?因为他们的交易额越多,他们的上市公司的市值越高。 对于所有营销商家来说,全世界...

宜都市18997888531: 如何使用爬虫采集京东商品信息和评价内容 -
端育复方: 我用前嗅的ForeSpider数据采集软件,采集过京东的商品评论和商品信息,并且能够在软件里进行数据挖掘和分类、统计、数据分析. ForeSpider内部集成了数据挖掘的功能,可以快速进行聚类分类、统计分析等,采集结果入库后就可以形成分析报表. ForeSpider是可视化的通用性爬虫软件.简单配置几步就可以采集.如果网站比较复杂,软件自带爬虫脚本语言,通过写几行脚本,就可以采集所有的公开数据. 软件还自带免费的数据库,数据采集直接存入数据库,也可以导出成excel文件. 如果自己不想配置,前嗅可以配置采集模板,我的模板就是从前嗅购买的.可以下载一个免费版试一试,免费版不限制功能,没有到期时间.

宜都市18997888531: 如何用爬虫抓取京东商品评价 -
端育复方: 你可以试试前嗅的爬虫软件,操作简单,采集的数据全面,采集速度快.我之前是使用这个软件抓取京东所有的商品信息,分分钟搞定,只用笔记本就能实现一天好几百万条的数据采集,而且操作起来很简单,有详细的帮助文档和视频教学,还不会用还有专门的客服解答所有的问题,态度是很好滴.要是懒得自己弄,也可以直接从他那购买模板,他都给配好了,拿过来直接按个按钮搞定.现在他有免费版的,而且不限制时间,随便用.你可以下一个,先用着感受一下

宜都市18997888531: 如何使用爬虫采集京东商品信息及评价内容 -
端育复方: 如果你熟悉python的话,你可以自己编爬虫来抓取评价;如果觉得时间成本高,可以用采集工具,市面上采集功能有几个,比如集搜客、网络矿工、狂采等,可以用集搜客,因为是免费的,在官网可以下现成的规则,淘宝天猫搜索列表、商品详细等;再简单一点,付费定制数据了.

宜都市18997888531: 京东店铺商品如何批量抓取 -
端育复方: 推荐使用载图助手,是一款不错的软件1、可以批量采集京东、淘宝、天猫、淘宝联盟和1688商品或导出淘宝数据包.2、可以支持整店、分类、关键字搜索等条件下载.3、自动添加规格颜色图片.4.只需把京东店铺链接复制到软件上就可以完成整店下载了.

宜都市18997888531: 爬虫技术可以抓取到淘宝天猫京东订单页的数据吗 -
端育复方: 订单页的数据从设计和安全性上讲,一般是不允许未登录状态访问的.而且登录状态的用户也访问不了他人的订单数据.而爬虫(搜索引擎)技术也应该是属于匿名访问,所以是抓取不到的数据的.

宜都市18997888531: 您好,想问问用网络爬虫的方式获取京东网上某一个商品的用户评论,用于构建语料库,怎样实现? -
端育复方: 第一步,爬取评论数据 第二步,切词 第三步,可以考虑拓词,此布也可省略 第四步,分析词频词性,通用词,品牌词,停用词等等

宜都市18997888531: 京东抓取商品工具那一款比较实用? -
端育复方: 可以的,现在很多人不是都用数据包来上传的嘛; 你可以先用甩手工具箱抓取京东功能一键制作出淘宝数据包,然后再用助理一键上传到你的天猫店店铺中就解决问题了; 现在淘宝的平台不支持显示外部图片空间的图片,所以要注意,先把图...

宜都市18997888531: 京东详情页怎么批量抓取 -
端育复方: 用电商图片助手,可以批量抓取京东的详情页和视频,一键保存到电脑上,然后再上传到淘宝就行了.

宜都市18997888531: 数据采集源代码从哪里获得? -
端育复方: 数据爬虫代码如果自己去开发爬虫技术爬取时间跟人力起码需要在一年左右.现在有一些平台是专门提供这些接口服务,可以直接调用现成的数据获得数据. 以下是一些数据开放平台: 1.京东获取单个商品价格接口: 1.//ps:商品ID这么获取:...

宜都市18997888531: Java数据爬取,HtmlUnit,京东,爬虫脚本 -
端育复方: 看看JS里请求的URL是否有请求第几页的参数,改变此参数就可以获得全部页面的商品了

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网