联系人:陈女士
联系电话:1399776****
公司地址:深圳市福田区莲花街道梅岭社区新闻路57号侨福大厦9B-N26
工作地点:居家远程办公
岗位职责:
1. 负责大规模网站数据爬取任务的技术架构与实现,开发高效、稳定的分布式爬虫系统。
2. 设计并实现针对百万级网站的自动化抓取方案,包括递归深度爬取网站内部链接。
3. 实现爬虫系统对网站内部链接的深度遍历,生成完整且有效的网站链接索引
4. 从海量网页中精准提取第三方外部链接,进行数据清洗与去重,确保数据质量。
5. 运用多线程、多进程或分布式技术提高抓取效率,优化资源利用,确保任务及时完成。
6. 编写并维护爬虫监控和数据存储工具,确保爬取任务的稳定性和可靠性。
7. 持续优化爬虫架构,解决网站结构差异性带来的技术挑战。
任职要求:
1. 计算机相关专业本科及以上学历,3年以上Python爬虫开发经验。
2. 熟练掌握Python语言及Scrapy、Requests、BeautifulSoup等常用爬虫框架和工具。
3. 有多线程、多进程编程经验,熟悉Celery、Asyncio等异步编程技术。
4. 精通网页数据提取、清洗及存储技术,熟悉XPath、正则表达式、CSS选择器。
5. 熟悉分布式爬虫框架及数据存储技术(如Redis、MongoDB、Elasticsearch等),能独立设计和实现高并发、高性能爬虫。
6. 熟悉HTML、HTTP、HTTPS协议,理解网站前端架构,有前端开发经验者优先。
7. 熟悉Linux系统。
8. 熟悉其他web框架,如PHP框架优先。
9. 有大规模网站数据爬取及数据处理经验者优先。
10. 具备良好的问题分析及解决能力,责任心强,沟通协作能力突出。
加分项:
- 有网站深度爬取项目经验。
- 熟悉反爬虫技术,并能应对复杂的反爬机制。
- 具备一定的Web安全知识,能规避常见爬虫风险。
福利待遇:
1、试用期3个月,表现优异者可提前转正,试用期到手 8000 ~ 10000元/月, 转正到手10000 ~ 13000元/月。
2、单休,每天工作时间9:00-12:00,13:30-19:00。法定节假日按国家规定正常放假。若需要加班,公司提供调休或补助;
3、表现优异的员工,一年内有1-2次机会上调薪资。广阔的职业晋升空间。