【图】Python爬虫工程师/远程办公-上海不限前端开发-广州知了师徒信息服务有限公司

Python爬虫工程师/远程办公

五险一金;餐饮补贴;节日福利;带薪年假;提供员工宿舍;

￥10000-￥13000 /月

发布时间:2025-04-21
职位类别:前端开发
发布公司:新意念宾果（深圳）信息科技有限公司
工作地点:深圳市-福田区
联系人:陈女士
联系电话:1399776****

立即申请

公司信息:

联系人：陈女士

联系电话：1399776****

公司地址：深圳市福田区莲花街道梅岭社区新闻路57号侨福大厦9B-N26

职位详情

工作地点：居家远程办公岗位职责： 1. 负责大规模网站数据爬取任务的技术架构与实现，开发高效、稳定的分布式爬虫系统。 2. 设计并实现针对百万级网站的自动化抓取方案，包括递归深度爬取网站内部链接。 3. 实现爬虫系统对网站内部链接的深度遍历，生成完整且有效的网站链接索引 4. 从海量网页中精准提取第三方外部链接，进行数据清洗与去重，确保数据质量。 5. 运用多线程、多进程或分布式技术提高抓取效率，优化资源利用，确保任务及时完成。 6. 编写并维护爬虫监控和数据存储工具，确保爬取任务的稳定性和可靠性。 7. 持续优化爬虫架构，解决网站结构差异性带来的技术挑战。任职要求： 1. 计算机相关专业本科及以上学历，3年以上Python爬虫开发经验。 2. 熟练掌握Python语言及Scrapy、Requests、BeautifulSoup等常用爬虫框架和工具。 3. 有多线程、多进程编程经验，熟悉Celery、Asyncio等异步编程技术。 4. 精通网页数据提取、清洗及存储技术，熟悉XPath、正则表达式、CSS选择器。 5. 熟悉分布式爬虫框架及数据存储技术（如Redis、MongoDB、Elasticsearch等），能独立设计和实现高并发、高性能爬虫。 6. 熟悉HTML、HTTP、HTTPS协议，理解网站前端架构，有前端开发经验者优先。 7. 熟悉Linux系统。 8. 熟悉其他web框架，如PHP框架优先。 9. 有大规模网站数据爬取及数据处理经验者优先。 10. 具备良好的问题分析及解决能力，责任心强，沟通协作能力突出。加分项： - 有网站深度爬取项目经验。 - 熟悉反爬虫技术，并能应对复杂的反爬机制。 - 具备一定的Web安全知识，能规避常见爬虫风险。福利待遇: 1、试用期3个月，表现优异者可提前转正，试用期到手 8000 ~ 10000元/月，转正到手10000 ~ 13000元/月。 2、单休，每天工作时间9:00-12:00，13:30-19:00。法定节假日按国家规定正常放假。若需要加班，公司提供调休或补助； 3、表现优异的员工，一年内有1-2次机会上调薪资。广阔的职业晋升空间。