职位描述
职位描述:
职责描述:
1.负责通过爬虫定向抓取数据和解析、抽取、去重、清洗和存储;
2.负责维护抓取程序的监控和报警,并且快速修复问题;
3.负责和业务沟通抓取需求,满足业务的发展需求;
4.负责和业务的服务器端开发配合,设计比较灵活的爬取架构,满足业务的爬取需求;
5.负责辅导和培养团队成员。
任职要求:
1.本科或以上,计算机软件或相关专业毕业;
2.深入理解网络数据抓取的工作原理与工作流程;
3.理解http,熟悉html, dom, xpath, scrapy、json优先;
4.两年以上大规模网页爬虫开发经验,熟悉linux平台,掌握python语言,熟悉关系数据库(如mysql, postgresql)或nosql数据库(如mongodb及redis);
5.有信息抽取、文本分类相关经验者优先;
6.有强烈上进心,自我驱动,学习适应能力强,有良好的沟通能力和团队协作能力。