职位描述
职位描述:
工作职责
1. 负责分布式网络爬虫架构和研发;
2. 负责爬虫调度、抓取和存储等;
3. 负责网站定向抓取和主流网页抓取模型设计。
岗位要求
1. 软件工程等相关专业,信息安全、信息对抗专业优先,全日制统招本科及以上学历;
2. 具有2年以上爬虫开发经验;
3. 掌握java或python爬虫开发;
4. 熟悉网页抓取原理和数据抽取技术;
5. 熟悉http协议,熟悉开源爬虫框架如scrapy、webmageic、webcollector等,对分布式和多线程技术有一定了解;
6. 有较强的学习能力、团队精神以及良好的工作态度;
7. 有大型分布式爬虫开发经验者优先