爱淘宝下载电脑版(爱淘宝详细使用教程)   公众号:EXCEL数据处理与分析   文/EXCEL数据处理与分   10-17 11:36

如果你到爱淘宝上搜索一个关键词,就会出来很多结果,任意一个关键词对应的至少也有几十页的内容:

如果你要把所有这些页面的数据抓取下来做分析,看看销售金额,看看哪些店铺销售的好:

哪些产品卖得好:

接下来,我们就来做这个网站数据的抓取。

网址分析

    打开爱淘宝网站,输入关键字得到搜索结果 网页上右键,检查 然后点选几个页面的数字

网址分析的过程就是一个找规律的过程:

我们点选页码时会有对应的网址URL,我们要观察这个网址的变化规律,其中我们注意到两点:

    page=4 key=Excel

前后都是用&符号连接的,当我们选不同的页面时,page会变化,正好对应的时页码,我们就知道,这个page对应的就是:

而key对应的就是我们搜索的关键字--“Excel”。

自定义抓取函数

    数据>从网站 输入我们找到的实际网址URL 修改成我们想要的函数

这个函数有两个参数:

    page:要抓取的页码 key:搜索关键字

用这两个参数替换掉URL中的页码数字和“Excel”

尝试抓取

    建一个列表1-100,转换到表,并且转换为文本格式 自定义列,调用自定义函数

爱淘宝的数据格式是json,Power Query可以直接解析。

转换数据

    展开记录 删除不需要的列 替换格式码

数据很整齐,除了产品声明中有些格式符号,统一替换掉就行,另外图片URL和其他跳转的URL都没有https,如果你要在Power BI中制作图片墙,就需要替换“//”为“https://”,这样这个图片URL才是有效的URL。

上面的这个数据抓取的过程在Excel中与Power BI Desktop中几乎是一样的,如果你在Power BI Desktop中抓取了数据,就可以直接在Power BI Desktop中做出漂亮的图片墙。

Power BI Desktop图片URL这个问题好像是修复了,之前我们还需要用二进制保存图片到本地,才能显示图片,今天试了一下,可以直接通过图片URL显示图片了。

最后总结一下:

这次的抓取没有遇到断网的情况,这个网站视乎不反对大家抓取数据,而且使用Power Query抓取关键字Excel共100页一共5991条数据,用不了几秒钟,速度也可以。对于不愿意写代码,又有网络抓取需求的朋友来说,Power Query也算是一种选择吧。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 yubaibai360@qq.com 举报,一经查实,本站将立刻删除。

[ 标签:爱淘宝下载电脑版 ]

相关文章