当前位置:

img

Python爬虫工程师/远程办公

五险一金;餐饮补贴;节日福利;带薪年假;提供员工宿舍;

¥10000-¥13000 /月

  • check发布时间:2025-04-21
  • check职位类别:前端开发
  • check发布公司:新意念宾果(深圳)信息科技有限公司
  • check工作地点:深圳市-福田区
  • check联系人:陈女士
  • check联系电话:1399776****
立即申请

公司信息:

联系人:陈女士

联系电话:1399776****

公司地址:深圳市福田区莲花街道梅岭社区新闻路57号侨福大厦9B-N26

职位详情

quote
工作地点:居家远程办公 岗位职责: 1. 负责大规模网站数据爬取任务的技术架构与实现,开发高效、稳定的分布式爬虫系统。 2. 设计并实现针对百万级网站的自动化抓取方案,包括递归深度爬取网站内部链接。 3. 实现爬虫系统对网站内部链接的深度遍历,生成完整且有效的网站链接索引 4. 从海量网页中精准提取第三方外部链接,进行数据清洗与去重,确保数据质量。 5. 运用多线程、多进程或分布式技术提高抓取效率,优化资源利用,确保任务及时完成。 6. 编写并维护爬虫监控和数据存储工具,确保爬取任务的稳定性和可靠性。 7. 持续优化爬虫架构,解决网站结构差异性带来的技术挑战。 任职要求: 1. 计算机相关专业本科及以上学历,3年以上Python爬虫开发经验。 2. 熟练掌握Python语言及Scrapy、Requests、BeautifulSoup等常用爬虫框架和工具。 3. 有多线程、多进程编程经验,熟悉Celery、Asyncio等异步编程技术。 4. 精通网页数据提取、清洗及存储技术,熟悉XPath、正则表达式、CSS选择器。 5. 熟悉分布式爬虫框架及数据存储技术(如Redis、MongoDB、Elasticsearch等),能独立设计和实现高并发、高性能爬虫。 6. 熟悉HTML、HTTP、HTTPS协议,理解网站前端架构,有前端开发经验者优先。 7. 熟悉Linux系统。 8. 熟悉其他web框架,如PHP框架优先。 9. 有大规模网站数据爬取及数据处理经验者优先。 10. 具备良好的问题分析及解决能力,责任心强,沟通协作能力突出。 加分项: - 有网站深度爬取项目经验。 - 熟悉反爬虫技术,并能应对复杂的反爬机制。 - 具备一定的Web安全知识,能规避常见爬虫风险。 福利待遇: 1、试用期3个月,表现优异者可提前转正,试用期到手 8000 ~ 10000元/月, 转正到手10000 ~ 13000元/月。 2、单休,每天工作时间9:00-12:00,13:30-19:00。法定节假日按国家规定正常放假。若需要加班,公司提供调休或补助; 3、表现优异的员工,一年内有1-2次机会上调薪资。广阔的职业晋升空间。

猜你喜欢

1.95G 4G 4G 4G 4G 4G 4G 4G 4G 3.31G 2.62G 3.1G 3.05G 4.51G 4G 3.85G 2.56G 3.03G 3.72G 4G 2.3G 3.8G 3.7G 4.36G 2.71G 5.17G 6.34G 2.92G 4.05G 6.34G