爬虫工程师是干什么的,爬虫开发工程师是什么
读这篇课文大约需要5分钟。
爬虫工程师的日常
两周前我还在重庆,对自己的未来充满迷茫,现在已经在公司上班一周了。很多人问我:“爬行动物是干什么的?”,既然是爬虫的工作,当然是抓取一些网站的数据。我们公司爬虫的框架已经搭建好了,爬虫的日常任务就不需要我了。再者就是抓取一些其他部门需要的数据,这些数据来自一些小网站。
至于爬虫在工作中需要哪些技术,就看公司的要求了。我们公司只需要你给我相应的数据,不管你用什么技术。但scrapy和selenium应用广泛,mongodb和mysql主要用于数据存储。
有读者问我,“最近看到一个新闻,一个做爬虫的人因为抓取别人的数据被法院判刑。爬行动物的工作真的违法吗?」
爬虫是否违法,取决于你抓取的数据内容。如果是网上可以公开看到的一些信息,就不违法。关于这个问题,我也问过爬虫领域的专家wmddx,他给我的回答如下。
公开可查的就可以爬,这个就没啥事。那些用某些特殊权限的账号登陆才可见的就比较危险。还有必须破解才能爬的就构成犯罪了,另外都建议各种设置代理,一个反爬,一个隐藏真实 ip。
所以只要不接触一些敏感的未公开数据,就可以抓取。
上海的生活
我回想起我第一次来上海的时候,那时我小学毕业。那时候,我什么都不知道。10月大学毕业后,我再次来到上海,变化很大,我逐渐长大,有了自己的想法和梦想。
我已经在上海呆了两个星期了,我正在了解上海这座城市。第一周主要是找工作和房子。当我到达上海的时候,我做的第一件事是找一个住的地方。刚毕业没什么钱,就把区域锁定在2号线最后几站的地铁里。我选择2号线是因为这里的互联网公司比较多,这里的房租也比较便宜。现在租房1500元一个月,对于上海来说已经是很便宜的价格了。
在今天的生活中,如果你想得到良好的服务,你必须花很多钱。于是我租了一个便宜的房子,得到的服务很差。我租的地方离地铁步行10分钟。周围环境普通,甚至荒凉。而我的站是人流量最大的站。我清楚地记得我第一天上班的情景。
我的公司在黄浦区,离我租住的地方坐地铁1小时20分钟。第一天上班肯定不能迟到。公司9点开始,所以我预计早上7点开始。两个小时应该够了。天真的我心安理得的在寂寞的雨里睡觉。
第二天早上我感到绝望。我确实是7点出发,7点15分到了地铁站。发现地铁已经挤满了人,只好慢慢等。而且到站的地铁都是人。这个时候地铁只能容纳两三个人。而这两三只犹豫不决的羊,离门最近的,是被后面的人群推上去的,根本不用自己走来走去。
期间等了5次地铁,都发生了。中间一个女生因为里面拥挤的环境在哭,但是周围的人都显得无动于衷,甚至对女生的哭声有点厌烦,打扰了大家。可能大家都习惯了吧。
终于,我迟到了,大概迟到了5分钟。1个小时的行程花了我2个小时,很多时间都花在了排队上。
第二天,我改变了策略。为了不在人多的地方坐地铁,我每天6点起床。这个时候我的作息时间会从6点开始,晚上8点到达租住地。这就是我现在的生活。这样的作息对我来说很累,但是生活会不理你。优胜劣汰,不能适应就会被淘汰。
大城市充满机遇,但也充满生存压力。路边的行人都在加快速度,唯恐错过任何机会。
幸运的是,来到上海,我结交了很多朋友,其中一位是微信官方账号“
Python专栏
”的作者。我们在上海的第一周,就认识了对方。一个非常好相处的帅哥。这段时间,我们找了个火锅,聊了聊。我们两个性格很像,都很随和。我聊得很开心。他虽然比我大几岁,但是一点隔阂感都没有。他也是一个很厉害的老板,白手起家。现为普华永道-TechLeader,中国第15届MongoDB专业人士,《红色警戒:复兴》联合创始人,平安集团MongoDB特邀讲师,马可教育Python负责人,海量数据研究院Python金牌讲师,专注于Python/运维开发/数据库/Web应用。
他的微信官方账号“Python专栏”关注Python原创与技巧,关注Linux、运维、数据库等领域的深度技术,理性分析热点,资源共享。值得大家关注。
推荐阅读:
必有妄想,然后成功。