跨境电商快人一步 晨飞教你如何全自动无人值守 高效做跨境(三) 利用火车采集器批量采集1688产品并同步翻译

本文最后一次更新于:

前面讲了采集数据的三种方式。其中,Python是我个人最为推崇的方法。Python是个神器,Python的世界里,如此简单,灵活,强大,优美,熟悉并精通Python技术,采集数据如入无人之地,仅此而已么?非也!用爬虫最大的好处是批量且自动化得获取和处理信息。Python是数据处理分析,数据加工的好帮手。Python能做非常多很酷很有趣的事情。知乎上有一篇《利用爬虫技术能做到哪些很酷很有趣很有用的事情?》,可以让大家对Python有一个更形象的认识。

分享一个很有意思的案例:用Python写出一个 训练找美女的机器人。

有人爬了知乎12万用户的头像,把长得像的头像放在一起,然后搜集了知友们的点击,根据数据预测出大家最喜欢的人长的样子:

mv

然后,根据点击数据训练出来了一个带逛机器人,可以自动识别美女:

sbme

再来看下知乎里的一位采集小王子怎么说的:

我就是传说中的采集小王子。

基本上做到了想采哪里采哪里。
不管怎么防采集,只要人能看到。我就能采集下来嘛。
什么增量更新,什么自动提醒,完全小case。

之前给公司做了一个监控十几个竞争网站内容更新,我们自己没有就直接扒过来推给编辑修修改改然后发布了,然后就流量稳压他们一头啊。

空虚的时候采集过陌陌用户数据,然后拿资料去百度谷歌去找他的上网痕迹然后筛选目标也做过。

技术方面比较杂。N多IP是必须的,各种伪装技能也是必须的。
自动判断采集时间间隔阈值、自动换IP、自动换伪装都必须哒。

火车头虽然很low,但是很好用,迅速形成生产力。
有时候,需要采集一些数据,然后计算拼凑下一步采集需要的数据,就用python or php。
让这些东西结合在一起就是 shell啦。

动脑子就好了。让代码帮你做有规律的事情。

怎么样?是否被这些脑洞大开的技术所惊着了?那么,当把这些技术应用在跨境电商行业,又将会如何?还记得我之前的一篇文章么《一个人如何做跨境电商(十三)-尊重技术 重视创新 做跨境电商的孤胆英雄》。如何凭借一己之力,玩转跨境电商,所以说,技术创新是跨境电商弯道超车的一条路子。

今天教大家一些基础点的东西,也是首次在跨境电商行业中进行分享,相信你花几千块钱参加各种跨境电商培训也学不到的,利用火车采集器批量采集1688产品并同步翻译。对了,上面的这位采集小王子也提到了火车头:火车头虽然很low,但是很好用,迅速形成生产力。是的,采集与分析处理数据首选是Python,但掌握精通Python并非一朝一日,没有程序开发基础的人去死磕Python是不明智的,那么火车头采集器便是你的首要工具了。

上篇文章简单介绍了火车头采集器的一些基本情况。今天做第一个采集任务:采集1688.com店铺产品,保存到本地EXCEL文件中。

2

首先,到火车采集器官方网站上去下载软件,然后注册一个用户名和帐号,打开软件并登录进去。火车采集器有免费版与付费版,如果仅仅是基本的数据采集需求,使用免费版即可,基本上能满足你的大部分需求。

35710

登录后,进入主界面会,左侧的任务列表树中会有很多现成的采集案例,可以点开学习参考。这里我们要采集1688的一个店铺中的产品,所以新建一个任务。在开始采集之前,我们需要先筛选出一个整体相对干净整洁,比较符合跨境电商平台产品上传规则的1688店铺。1688店铺千千万,这里随机从1688牛商中找了一个店铺,进行演示。店铺网址:https://chenguanshangmao.1688.com/ 之所以选择这家进行测试,几个原因供大家参考。店铺有一定的规模,生产厂家,绩效较好,支持一件代发,产品图片美观,附图也很漂亮,产品描述中没有过多的垃圾信息,厂家自由品牌,可授权,不易产生侵权纠纷。

正式开始数据采集之前,需要对店铺进行分析,需要采集的目标列表页面:https://chenguanshangmao.1688.com/page/offerlist.htm?pageNum=32 最后这个32表示一共有32页。爬虫需要从列表页面爬到产品详细页面,所以这个列表页起一个引导作用。在地址格式中,输入列表页地址,其中32这个数字是一个变量,数字是在变化的,所以以地址参数进行代替,然后在下面的地址参数中进行数字变化定义。

5

在列表页中,鼠标反敲右键,点开查看源代码,找出要采集的目标列表开头标签和结尾标签,也即使设置区域。

9

开头标签,网页代码中仅出现一次

89

结尾标签,网页代码中仅出现一次

99

把标签输入到这里。然后在链接过滤中输入需要包含的链接地址:https://detail.1688.com/offer 因为每个产品页面都是以这个链接开头。然后保存,下一步。

接下来是内容采集了。首先确定需要采集的内容,例如标题,图片,价格,重量,描述,库存数等等。首先,打开任意一个产品详细页面https://detail.1688.com/offer/549255112102.html,查看源代码。因为是演示内容,这里只做标题的采集,其他内容也是同样的方法。先来产品采集标题。

在标签列表中新建一个标题标签,打开源代码页面,找到对应的标签内容,输入“珍玥琦欧美英伦风女士礼帽 秋冬保暖仿羊毛毡帽时尚叶子花朵帽子”,

852
分别截取这个标题的前后2段字符串,输入到下图中。

123

因为采集后的内容可能出现一些不相关的html代码,有时候需把品牌和一些和产品相关的文字清理掉,可以在下面的数据处理中进行处理。勾选上HTML标签排除,批量替换中输入需要清除的字符。然后保存,点击右下角的测试,即可看到采集结果,如下图。

001

在制定完其他标签后,即可开始正式采集。 通常1000多条数据,大概10来分钟即可采集完成。1688对于同一IP频繁访问抓取数据,会有一定的限制,所以适当降低线程与采集间隔时间,也可以用代理IP等方式来规避这种情况。当然,对于付费版用户会有更多的开放权限,例如可以用google翻译插件将采集内容同步翻译成你需要的语言,法语、德语、西班牙语等几十种语言。

篇幅有限,光看不去尝试使用,也是学不会的,需要大家自己去摸索。火车头虽然没有Python强大,但是很好用,可以快速形成生产力。这一点,我也是深有体会。对于大部分没有任何编程基础的人来说,稍加学习,即可掌握。这里要重点说一下,切勿利用这种方法直接去采集跨境电商平台上的现有店铺产品,很容易因为发不出货、侵权投诉、卖家举报被封店,得不偿失。

在线观看本篇内容视频讲解:(立即订阅-学习晨飞博客跨境电商经验分享


跨境创业方式:
⭐️亚马逊全球开店 ⭐️WooCommerce独立站 ⭐️Shopify独立站
⭐️Dropshipping独立站 ⭐️WordPress建立Affiliate网站 ⭐️WordPress博客写作 ⭐️YouTube频道运营
跨境收款方式:
⭐️PayPal 全能型跨境收款付款工具 ⭐️Payoneer 支持平台的收款工具
⭐️Stripe 主流信用卡收款渠道 ⭐️拍住赏Tap & Go 小额PayPal提现
⭐️Velo华美银行 可签发美国visa借记卡和担保信用卡
跨境常用工具
⭐️Siteground主机 性价比最高的主机
⭐️Avada模版 全球销量第一的商业主题模版
⭐️NameCheap 性价比最高的域名注册渠道
⭐️Helium10 亚马逊卖家必备工具包
⭐️AliDropship 用于woocommerce的dropshipping插件
⭐️实用的美国地址服务 US Global Mail
⭐️在国内也能申请得美国高福利信用卡
⭐️免费的美国电话号码:Google Voice
⭐️谷歌云300美元赠金
运营身份选择
⭐️运营身份对比 ⭐️注册美国公司 ⭐️申请EIN联邦税号
推荐阅读
⭐️跨境创业新人零基础入门导读
⭐️辞职做跨境电商的风险与警示
⭐️个人单打独斗开展跨境创业
⭐️在小城市生活赚大城市的收入
⭐️从跨境资金流向找准创业方向
Share: