爬虫

跨境电商批量采集系列教程一(Tophatter)教你如何批量采集tophatter平台上的产品

|2021-04-19T20:22:05+08:002018-03-31|Tophatter|

关于跨境电商批量采集话题,我在之前的博客已经谈论过好几次了。因为高效且暴力,这种批量采集方式能很方便的把一个平台上的产品批量完整的扒下来,然后鼓捣鼓捣,再批量上传到另一个平台上。批量采集应用广泛,不仅仅可以采集产品信息,同样可以进行数据的批量提交更新操作,结合一些特定环境能实现很多意想不到的效果。 批量采集并非什么高深莫测的技术,有很多方式可以实现。对于程序员来说,Python编写爬虫是首选方式,灵活且强大。但你不能要求人人都能熟练掌握Python这门编程语言。所以,更多的方式是通过第三方软件来实现。 这话题不好讲,来点实操。我想试着写一个跨境电商批量采集系列教程,每篇文章会对一个跨境电商平台进行批量采集演示讲解,算下来,亚马逊、ebay、速卖通、wish、lazada、cdiscount、tophatter、Newegg、Shopee、Walmart、Tradera、Etsy、Joom等等,十几个平台,够我折腾一阵子了。 考虑到大部分卖家的网络技术比较欠缺,用Python来演示估计会听得云里雾里,所以,系列教程会采用第三方采集软件-火车采集器方式进行演示。批量采集演示讲解会采用图文与视频方式进行,图文稿会开放所有读者阅读学习,视频则作为补充内容,放在会员区中向付费会员开放。 明天就是4月1日了,Tophatter从4月1日起实现卖家标准计划和顶级卖家计划。那么,我们就先从Tophatter开始,详细讲解下如何批量采集Tophatter上的产品。 一、分析 打开 tophatter 官方网站,找到产品规律与特征。为了实现批量采集,通常需要先找到展现产品的列表页,然后通过这个页面进入到产品的详细页面。 点击红色箭头指向的 [...]

跨境电商运营实现全自动无人值守工作的两种方式简介

|2021-04-19T20:37:46+08:002017-11-20|学做跨境电商|

冬天来了,懒癌发作了,每天让我多睡一个小时。想想,不行,一觉醒来,一堆新订单等着处理呢,要检查缺货情况、采购、更新库存、跟踪客户反馈。于是,懒癌不治痊愈了,又开始了一天忙碌的工作。可能这也是很多跨境电商卖家的普遍生活工作状态。但时间久了,每天重复同样的工作,特别是订单迟迟没有提升的时候,也会有些厌倦,甚至厌烦跨境电商这个工作,不如今天就再多睡一个小时。 坦白说,我算是比较懒的人了,虽然晚上会经常工作到很晚,好在每天都能睡到自然醒。很多人感叹跨境电商似乎永远有做不完的事情。但如果你去分析评估一下自己每天的工作内容,很容易找到其中的规律,你会发现似乎大部分工作都是机械化重复工作。比如说:进入第三方的erp系统,手动点击为新订单获取运单号;查询物流到货情况,延误的给客户发邮件提醒,签收的,给客户发邮件反馈满意度;查询库存缺货情况,手动更新各个平台的库存,下架缺货产品等等;别忘了还得上传新产品。 似乎每天没完没了的这些工作占据了你大部分时间,有没有办法能让电脑自动去完成这些工作呢?答案当然是肯定的。先说一条新闻,最近关于无人值守超市的新闻大家一定都听说了。刷脸识别后,进入超市,选购后你需要的商品,离开超市时,自动扣款,全程无人收银。真不好说,当这种超市铺天盖地推广开来时,有多少传统超市的售货员收银员要失业了。老实说,我个人觉得,无人值守超市普及只是一个时间问题,而且不会太久。就跟2-3年前,你无法想象,农贸市场卖菜的阿姨如今也用微信支付宝收钱了,满大街都是各种颜色的共享单车,以前政府反复治理也搞不定的出租车不打表,乱收费的情况,被网约车“治理”的服服帖帖。 时代在发展,生活习惯在变,工作的方法方式也得与时俱进,改进一下了。今天,给大家介绍下自动化完成这些工作的方法。其实,在以前的文章中,也多次提到过全自动无人值守的话题。没错,全自动无人值守,就用让电脑自动去完成这些重复机械化的工作。当然,想要轻松掌握这们手艺还是有些难度的。毕竟,这是门技术活。 全自动无人值守,其实早已被用在各个行业领域当中。亚马逊的货物分拣系统,就是一个很好的例子。不过那些动辄几百上千万的系统,也不是我们的菜。我们的需求很简单,就是将重复机械化的工作自动化进行处理。实现的方式,也没有大家想象的这么复杂。我这里有2种方式,一是通过第三方软件来定制脚本流程实现自动化。第二种,用python自己编写程序实现需求。下面具体分析。 一、第三方软件实现全自动无人值守; 还记得以前介绍过的火车采集器么?就是专门用来批量采集数据的软件。其实,还有一款更专业的软件,火车浏览器。 火车浏览器是一款可视化的全自动脚本工具,用户可以通过设置脚本的点击、判定、循环,跳转等动作流程,达到自动登录查询,抓取数据,批量群发等多种操作效果。超多动作自由组合,自定义排列,功能无限级扩展。既能帮助我们写出强大且独一无二的脚本辅助工作,又可以生成单独的EXE程序进行销售带来收益! 火车浏览器,通过定制流程,可以模拟出真人操作。举例来说,你需要登陆进店小秘erp系统处理订单。实现的步骤则是:打开店小秘网站,将元素定位到用户名输入框,输入用户名,再将元素定位到密码框,输入密码,最后,定位到登陆按钮,执行点击。这样一来,就完成了登陆操作。然后再处理订单:通过组合点击、判定、循环,跳转动作流程,实现查询、抓取、提交等操作。想怎么组合,就怎么组合。 火车浏览器有免费版的,有兴趣的,可以下载下来,参考官方视频教程,摸索学习测试测试。掌握这门技术,稍微有些难度,需要学习如何用xpath来精确定位,这里就不做细讲。但是,我可以确定,一旦你学会掌握了,你会发现,你的大部分工作,都可以用这种方式来完成了。每天可不只是可以多睡一个小时了,保证睡到自然醒,哈哈。 [...]

跨境电商快人一步 晨飞教你如何全自动无人值守 高效做跨境(三) 利用火车采集器批量采集1688产品并同步翻译

|2021-04-19T20:33:35+08:002017-08-21|学做跨境电商|

前面讲了采集数据的三种方式。其中,Python是我个人最为推崇的方法。Python是个神器,Python的世界里,如此简单,灵活,强大,优美,熟悉并精通Python技术,采集数据如入无人之地,仅此而已么?非也!用爬虫最大的好处是批量且自动化得获取和处理信息。Python是数据处理分析,数据加工的好帮手。Python能做非常多很酷很有趣的事情。知乎上有一篇《利用爬虫技术能做到哪些很酷很有趣很有用的事情?》,可以让大家对Python有一个更形象的认识。 分享一个很有意思的案例:用Python写出一个 训练找美女的机器人。 有人爬了知乎12万用户的头像,把长得像的头像放在一起,然后搜集了知友们的点击,根据数据预测出大家最喜欢的人长的样子: 然后,根据点击数据训练出来了一个带逛机器人,可以自动识别美女: 再来看下知乎里的一位采集小王子怎么说的: 我就是传说中的采集小王子。 基本上做到了想采哪里采哪里。 不管怎么防采集,只要人能看到。我就能采集下来嘛。 什么增量更新,什么自动提醒,完全小case。 [...]

跨境电商快人一步 晨飞教你如何全自动无人值守 高效做跨境(二) 产品数据批量采集与分析处理

|2021-04-19T20:32:43+08:002017-08-15|学做跨境电商|

跨境电商快人一步,这个第一步,则是来自数据批量采集与分析处理。在我看来,数据的采集与分析处理应该作为跨境电商卖家必备的一项基本技能。注意,我把这个定义为基本技能,就跟你的英语技能、Excel软件使用技能、PS图片处理技能一样。因为当你熟练掌握这项技能后,你会发现这项技能太厉害了,能做的事情可不仅仅是简单的数据采集,数据的提取,组合,转换,归类等等,全在掌控之中。真有这么厉害么?别急,接下来的几期内容,将详细介绍数据采集与分析处理。 数据采集的方法方式有很多,这里只谈技术层面的数据采集。其中最基础的方法是基于网页的数据采集。怎么理解?很简单,就是用网页程序对目标网页进行采集,而这类方式,基本上都有特定的模式或者模板。 举例来说,很多第三方的免费ERP都会提供这个网页版的产品采集功能。而采集的目标通常也都比较固定,集中在几个常见的平台。好处是,简单易用。只需要复制目标产品页面地址,粘贴到采集输入框,点击开始即可。比如店小秘的采集功能。   一、网页版的数据采集 上面的案例就是最基础的网页版数据采集,这种采集方式也比较原始,也有一定的局限性。只能采集那些目标排版格式相对固定的网站,无法自由选择采集数据,首先,对目标网站进行源码分析,就是定位到采集元素的具体位置,即可精确抓取到数据。局限性也很明显,如果有一些特殊要求或者限制,就不好办了。比如需要依托预先设定好的程序、防采集处理、模拟用户登陆、模拟session/cookie的存储和设置、批量海量采集等等,优点缺点都很明显,这里大家了解下就好,没有必要深入研究,这里也不多讲,网上很多,自己体验体验就知道了。 二、python爬虫数据采集 不论您是想要做市场调查、趋势分析、还是想要做科研,都需要从自己机构外部找数据,python爬虫就是绝佳的一项采集方式。 Python是一门面向对象的编程语言,简洁的语法使得编写数十行代码即可实现爬虫功能,获取海量互联网数据。使用Python来编写爬虫实现简单且效率高,灵活性也很好,可以解决各种受限,同时爬取的数据可以使用Python强大的第三方数据处理库来进行分析。 应该说,目前最主流、最实用、效率最高的数据采集方式就是python爬虫。采集功能很多语言和工具都能做,但是用python能够干得最快,最干净。Life [...]

返回顶部