爬虫工程师是干什么的,爬虫初级工程师是个什么水平
职位描述1:
1.参与大型框架系统的相关架构和开发;
2.负责框架系统模块的设计和开发,包括服务器和客户端,以及日常升级和维护。
3.协助需求收集、分析、系统设计、测试和部署,并编写开发过程中涉及的相关文档。
合格
1.3年以上Java开发经验,熟悉Java核心和开源项目,有互联网开发经验者优先。
2.具有面向对象的设计思想和经验,熟悉软件开发流程和架构,具有良好的文档能力和良好的编码风格;
3.具有良好的表达和沟通能力,充分理解用户需求和功能描述,设计开发软件系统;
4.熟悉SOA、消息传递、socket、线程、并发等开发知识,有后台框架开发经验者优先。
5.熟悉应用服务器,Tomcat,Netty和Apache的配置和优化。
6.熟悉数据库知识,数据库设计能力,以及SQL Server/Oracle/MySql相关技术和工具。
7熟悉HTTP传输协议,精通网页抓取的原理和技术,能够模拟浏览器操作爬虫;
8.责任心强,热爱爬虫工作,有爬虫项目经验者优先。
9.较强的团队合作精神,工作热情,能承受一定的工作压力。
10.全日制本科学历,硕士及以上学位,计算机、数学、物理等理工科专业。
职位描述2:
1.参与爬虫系统的架构设计和开发;
2.有2年以上实际爬虫开发和内容提取经验;
3.负责设计和开发一个分布式网络爬虫系统,捕获和分析多平台信息;
4.设计爬虫策略和反屏蔽规则,提高网页抓取的效率和质量;
5.能够独立解决实际开发过程中遇到的各类问题;
工作要求:
1.熟悉linux平台开发,3年以上Java、python或C/C开发经验;
2.精通信息捕获和整合技术,从结构化和非结构化数据中获取信息;
3.熟悉Mysql、redis、mongdb中至少一种,有数据库调优和海量数据存储经验者优先;
4.有搜索相关技术研发经验者优先;
5.有数据挖掘、自然语言处理、信息检索和机器学习背景者优先;
6.有nutch、heritrix或分布式抓取经验者优先;
7.熟悉搜索引擎和个性化推荐相关技术,精通主流分词算法、分类、摘要抽取、大规模web聚类、索引、检索等相关开发经验者优先。
职位描述3:
1.精通爬虫相关技术,如httpClient/jSoup/xpath/正则表达式/认证码加密/代理池等。
2.精通Java核心知识,如常用集合类/泛型/反射/IO/注释/多线程等。
3.掌握常用开源框架,如Spring、MyBatis、Spring Boot等。
4.掌握常用数据库(如MySQL)和相应的DDL/DML,熟悉索引和常规SQL调优。
5.掌握常用的开发管理工具和应用服务器,如Eclipser、Maven、Git/SVN、Tomcat、Nginx等。
6.熟悉行为验证码识别、模拟登录、数据清洗、去重、入库等。
7.熟悉HTTP协议,掌握HTML/CSS/JS/JQUERY/AJAX等相关知识。
8.熟悉分布式和NoSQL技术,如MQ,Zookeeper和Redis。
9、了解Linux系统和Linux常用命令
10.了解Hadoop、HBase、HDFS、KAFKA和其他大数据。
1.有运营商网站抓取或反向经验者优先。
工作描述4:
1.参与数据层建设,重点抓取垂直数据,多平台信息抓取分析;
2.参与爬虫系统的架构设计和开发;
3.实现数据抽取、清洗、结构化、入库、统计分析等需求;
4.研究优化算法,提高爬虫系统的稳定性和可扩展性;
5.设计爬虫策略和反屏蔽规则,提高网络爬行的效率和质量;
6.能独立解决工作中遇到的各种问题
2.有扎实的计算机基础,熟悉常用数据结构,有爬虫开发实践经验;
3.精通至少一种Java/Python语言,良好的编码风格和编码能力;
4.熟悉高并发、高性能分布式系统的设计与应用,熟悉常用数据存储,各种数据处理技术优先;
5.3年以上编程开发经验,有丰富爬虫和反爬虫经验者优先。