职位描述
职位描述:
1. 负责当前采集系统,采集器的维护,并跟据需求进行功能扩展升级
2. 负责新的数据源采集器的设计,编码,实现工作
3. 负责数据的采集,清洗,结构化,标签化,数据预处理,入库以及部分后台数据服务器的开发工作
4. 优化采集策略和防屏蔽规则,提升各类网页采集效率和质量
5. 采集端数据源采集规则管理,跟踪,监控,报警6. 与数据分析师,数据管理员协作,完成日常对数据的统计,查询,分析
工作任职要求
1. 全日制统招本科以上学历,计算机软件相关专业,2年以上产品级采集相关工作经验
2. 熟悉http协议,网页采集基本原理,熟悉正则表达式,xpath/css selector/ajax等基本技术
3. 熟练使用常用的数据结构与算法
4. 熟悉python/js语言; 熟练使用scrapy,有nodejs/express/casperjs相关开发经验者优先
5. 熟悉mysql/redis,有elasticsearch经验者优先6. 熟练使用linux操作系统,有linux,数据库系统管理经验者优先
微信分享