前面讲了采集数据的三种方式。其中,Python是我个人最为推崇的方法。Python是个神器,Python的世界里,如此简单,灵活,强大,优美,熟悉并精通Python技术,采集数据如入无人之地,仅此而已么?非也!用爬虫最大的好处是批量且自动化得获取和处理信息。Python是数据处理分析,数据加工的好帮手。Python能做非常多很酷很有趣的事情。知乎上有一篇《利用爬虫技术能做到哪些很酷很有趣很有用的事情?》,可以让大家对Python有一个更形象的认识。

分享一个很有意思的案例:用Python写出一个 训练找美女的机器人。

有人爬了知乎12万用户的头像,把长得像的头像放在一起,然后搜集了知友们的点击,根据数据预测出大家最喜欢的人长的样子:

mv

然后,根据点击数据训练出来了一个带逛机器人,可以自动识别美女:

sbme

再来看下知乎里的一位采集小王子怎么说的:

我就是传说中的采集小王子。

基本上做到了想采哪里采哪里。
不管怎么防采集,只要人能看到。我就能采集下来嘛。
什么增量更新,什么自动提醒,完全小case。

之前给公司做了一个监控十几个竞争网站内容更新,我们自己没有就直接扒过来推给编辑修修改改然后发布了,然后就流量稳压他们一头啊。

空虚的时候采集过陌陌用户数据,然后拿资料去百度谷歌去找他的上网痕迹然后筛选目标也做过。

技术方面比较杂。N多IP是必须的,各种伪装技能也是必须的。
自动判断采集时间间隔阈值、自动换IP、自动换伪装都必须哒。

火车头虽然很low,但是很好用,迅速形成生产力。
有时候,需要采集一些数据,然后计算拼凑下一步采集需要的数据,就用python or php。
让这些东西结合在一起就是 shell啦。

动脑子就好了。让代码帮你做有规律的事情。

怎么样?是否被这些脑洞大开的技术所惊着了?那么,当把这些技术应用在跨境电商行业,又将会如何?还记得我之前的一篇文章么《一个人如何做跨境电商(十三)-尊重技术 重视创新 做跨境电商的孤胆英雄》。如何凭借一己之力,玩转跨境电商,所以说,技术创新是跨境电商弯道超车的一条路子。

今天教大家一些基础点的东西,也是首次在跨境电商行业中进行分享,相信你花几千块钱参加各种跨境电商培训也学不到的,利用火车采集器批量采集1688产品并同步翻译。对了,上面的这位采集小王子也提到了火车头:火车头虽然很low,但是很好用,迅速形成生产力。是的,采集与分析处理数据首选是Python,但掌握精通Python并非一朝一日,没有程序开发基础的人去死磕Python是不明智的,那么火车头采集器便是你的首要工具了。

上篇文章简单介绍了火车头采集器的一些基本情况。今天做第一个采集任务:采集1688.com店铺产品,保存到本地EXCEL文件中。

2

首先,到火车采集器官方网站上去下载软件,然后注册一个用户名和帐号,打开软件并登录进去。火车采集器有免费版与付费版,如果仅仅是基本的数据采集需求,使用免费版即可,基本上能满足你的大部分需求。

35710

登录后,进入主界面会,左侧的任务列表树中会有很多现成的采集案例,可以点开学习参考。这里我们要采集1688的一个店铺中的产品,所以新建一个任务。在开始采集之前,我们需要先筛选出一个整体相对干净整洁,比较符合跨境电商平台产品上传规则的1688店铺。1688店铺千千万,这里随机从1688牛商中找了一个店铺,进行演示。店铺网址:https://chenguanshangmao.1688.com/ 之所以选择这家进行测试,几个原因供大家参考。店铺有一定的规模,生产厂家,绩效较好,支持一件代发,产品图片美观,附图也很漂亮,产品描述中没有过多的垃圾信息,厂家自由品牌,可授权,不易产生侵权纠纷。

正式开始数据采集之前,需要对店铺进行分析,需要采集的目标列表页面:https://chenguanshangmao.1688.com/page/offerlist.htm?pageNum=32 最后这个32表示一共有32页。爬虫需要从列表页面爬到产品详细页面,所以这个列表页起一个引导作用。在地址格式中,输入列表页地址,其中32这个数字是一个变量,数字是在变化的,所以以地址参数进行代替,然后在下面的地址参数中进行数字变化定义。

5

在列表页中,鼠标反敲右键,点开查看源代码,找出要采集的目标列表开头标签和结尾标签,也即使设置区域。

9

开头标签,网页代码中仅出现一次

89

结尾标签,网页代码中仅出现一次

99

把标签输入到这里。然后在链接过滤中输入需要包含的链接地址:https://detail.1688.com/offer 因为每个产品页面都是以这个链接开头。然后保存,下一步。

接下来是内容采集了。首先确定需要采集的内容,例如标题,图片,价格,重量,描述,库存数等等。首先,打开任意一个产品详细页面https://detail.1688.com/offer/549255112102.html,查看源代码。因为是演示内容,这里只做标题的采集,其他内容也是同样的方法。先来产品采集标题。

在标签列表中新建一个标题标签,打开源代码页面,找到对应的标签内容,输入“珍玥琦欧美英伦风女士礼帽 秋冬保暖仿羊毛毡帽时尚叶子花朵帽子”,

852
分别截取这个标题的前后2段字符串,输入到下图中。

123

因为采集后的内容可能出现一些不相关的html代码,有时候需把品牌和一些和产品相关的文字清理掉,可以在下面的数据处理中进行处理。勾选上HTML标签排除,批量替换中输入需要清除的字符。然后保存,点击右下角的测试,即可看到采集结果,如下图。

001

在制定完其他标签后,即可开始正式采集。 通常1000多条数据,大概10来分钟即可采集完成。1688对于同一IP频繁访问抓取数据,会有一定的限制,所以适当降低线程与采集间隔时间,也可以用代理IP等方式来规避这种情况。当然,对于付费版用户会有更多的开放权限,例如可以用google翻译插件将采集内容同步翻译成你需要的语言,法语、德语、西班牙语等几十种语言。

篇幅有限,光看不去尝试使用,也是学不会的,需要大家自己去摸索。火车头虽然没有Python强大,但是很好用,可以快速形成生产力。这一点,我也是深有体会。对于大部分没有任何编程基础的人来说,稍加学习,即可掌握。这里要重点说一下,切勿利用这种方法直接去采集跨境电商平台上的现有店铺产品,很容易因为发不出货、侵权投诉、卖家举报被封店,得不偿失。

[box style=”info”] 在线观看本篇内容视频讲解:(立即订阅-学习晨飞博客跨境电商经验分享

[/box]

请对本文内容质量评分。

晨飞,现居加拿大多伦多,是一位拥有丰富技术背景和实战经验的跨境创业者,也是一位文案作家。他不仅精通Wordpress网站开发和网络营销,还是内容营销的专家。通过撰写高质量的原创文章,他成功地帮助了北美的许多合作伙伴推广他们的产品和服务。

晨飞拥有加拿大教育背景,曾参与数字营销专业的研究生文凭课程学习,因此对北美的生活和商业环境有着深入的了解。他总是愿意尽自己所能,去理解和满足会员和读者的需求,不仅提供专业知识,还分享自己的个人经验。

跨境电商快人一步 晨飞教你如何全自动无人值守 高效做跨境(三) 利用火车采集器批量采集1688产品并同步翻译 1

近期,晨飞将他在北美市场的实战经验和深入研究整理成了一本名为《北美跨境创业实战手册》的书。这本书不仅涵盖了理论知识,更加重要的是,它包括了一系列实战经验和案例分析。这是他对跨境创业领域的深入研究和实践的成果,旨在为那些渴望在跨境创业道路上有所作为的人提供实用的指导和启发。如果一切顺利,这本书将在不久的将来出版。

如果你愿意成为晨飞的付费会员,你将更有可能获得他的个性化帮助。无论你在跨境创业的过程中遇到什么问题或困难,晨飞都会尽全力为你提供解答和支持。会员区内还有更多他的专业知识和个人经验分享,你定会从中受益匪浅。

直接的对话和交流是解决问题的最快方式,也是他自己学习和进步的途径。他希望通过信息反馈和互动,帮助更多的用户避免走弯路,更快地在跨境创业道路上取得成功。晨飞热切期待你的加入,一同书写技术和创业成长的精彩篇章。