【图】爬虫工程师-上海不限前端开发-广州知了师徒信息服务有限公司

爬虫工程师

五险一金;年终奖金;定期体检;餐饮补贴;专业培训

￥13000-￥25000 /月

发布时间:2025-04-21
职位类别:前端开发
发布公司:柚柚兔（广州）科技有限公司
工作地点:广州市-白云区
联系人:吴先生
联系电话:1875821****

立即申请

公司信息:

联系人：吴先生

联系电话：1875821****

公司地址：广州市白云区嘉禾街广云路408号107A

职位详情

爬虫开发工程师（社交媒体方向）岗位说明书一、岗位职责（一）数据采集与系统运维 1.运用专业爬虫技术，每日定时从抖音、小红书等主流社交媒体 APP 及 WEB 平台，高效爬取海量数据，涵盖用户信息、内容发布、互动评论等核心板块. 2.对采集到的原始数据进行深度清洗，运用数据清洗算法与工具，去除重复、错误、不完整数据。随后进行结构化处理，依据预先设计的数据模型，将数据整理为便于存储与分析的格式，如 JSON、CSV 等。 3.负责将处理好的数据稳定入库至指定数据库，如 MySQL、MongoDB 等，保障数据存储的安全性与完整性。同时，构建数据备份机制，定期对重要数据进行备份，防止数据丢失。 4.持续监测和维护爬虫系统，及时发现并解决系统运行中的各类故障与异常，确保爬虫系统 7×24 小时稳定运行。（二）反爬虫机制突破 1.深入剖析抖音、小红书等平台复杂的反爬虫机制，通过抓包分析、代码逆向等手段，精准识别防护算法、JS 混淆加密逻辑等关键反爬策略。 2.凭借丰富的实战经验，制定并实施有效的反爬虫突破方案，如利用机器学习算法实现验证码自动识别；通过模拟真实用户行为，规避平台基于行为模式的反爬检测。 3.实时跟踪平台反爬虫策略的更新与变化，及时调整和优化突破方案，确保爬虫系统始终具备应对最新反爬措施的能力。（三）爬虫系统架构与优化 1.独立承担单独及分布式爬虫系统的设计与开发工作，依据业务需求与数据规模，合理选择技术架构与框架，如基于 Scrapy 框架构建分布式爬虫集群，确保系统具备良好的扩展性与高性能。 2.持续对爬虫系统进行维护与重构，优化系统代码结构，提升系统性能与稳定性。通过优化网络请求策略、调整数据存储方式等手段。 3.建立爬虫系统性能监测指标体系，实时监控系统的运行状态，包括但不限于数据抓取速度、成功率、资源利用率等，及时发现并解决性能瓶颈问题。（四）数据深度清洗与管理 1.综合运用正则表达式、XPath、CSS 选择器、BeautifulSoup 等信息抽取技术，从采集到的数据中精准提取关键信息。 2.对提取后的信息进行二次清洗与校验，确保数据的准确性与完整性。通过建立数据质量评估机制，定期对数据质量进行评估与分析，不断优化数据清洗流程。 3.负责管理数据仓库，对数据进行分类、存储与检索，构建高效的数据索引机制，实现数据的快速查询与调用，提升数据的使用效率。（五）自动化控制技术应用 1.运用 APP 逆向抓取技术，深入分析社交媒体 APP 的内部结构与数据传输机制，实现对 APP 端数据的高效采集。 2.熟练使用浏览器模拟抓取技术，如 Selenium、Puppeteer 等，模拟真实用户在浏览器中的操作行为，突破平台基于浏览器环境的反爬限制，提高数据抓取的成功率。 3.持续探索与应用新的自动化控制技术，优化数据采集流程，降低人工干预成本。（六）技术文档编写与团队支持 1.编写详细、规范的技术开发文档，包括但不限于爬虫系统设计文档、反爬虫策略文档、数据处理流程文档等，确保文档的完整性与可读性，为团队后续开发与维护提供有力支持。 2.积极为团队其他开发成员提供技术指导与支持，解答技术难题，分享技术经验，提升团队整体技术水平。在项目开发过程中，与产品、运维等团队紧密协作，确保项目顺利推进。二、任职要求（一）教育背景计算机科学、软件工程、信息与计算科学等相关专业，本科及以上学历。（二）编程语言 1.熟练掌握 Python 语言，具备扎实的 Python 编程基础，能够独立完成复杂的爬虫程序开发，熟悉 Python 常用的数据处理与分析库，如 Pandas、NumPy 等。 2.至少熟练掌握 Node.js、Java 中的一门编程语言，具备使用该语言进行后端开发或与爬虫系统进行集成的能力，如利用 Node.js 开发爬虫调度服务，或使用 Java 实现数据存储接口。（三）爬虫框架与工具 1.精通 Scrapy、BeautifulSoup、Selenium 等主流爬虫框架，具有丰富的框架定制与开发经验，能够根据实际业务需求对框架进行优化与扩展。 2.熟练使用各类抓包工具，如 Charles、Fiddler 等，能够通过抓包分析平台数据传输协议与反爬虫机制。同时，熟练掌握逆向分析工具，如 Apktool、dex2jar、JD - GUI、Frida、IDA 等，具备 APP 逆向分析与破解的能力。（四）反爬虫技术 1.深入理解常见的反爬虫策略，如 IP 限制、验证码、滑块验证、账号限制等，具备丰富的应对经验，能够独立制定有效的反爬虫解决方案。 2.掌握机器学习、深度学习在反爬虫领域的应用，如利用 OCR 技术识别验证码，使用深度学习模型模拟用户行为，提高反爬虫的智能化水平。（五）信息抽取与数据处理 1.精通正则表达式、XPath、CSS 选择器、BeautifulSoup 等信息抽取方法，能够编写高覆盖率、高准确率的正则表达式，从复杂的网页结构中精准提取所需信息。 2.熟练掌握大规模数据采集、清洗、去重和分类等技术，具备丰富的数据处理经验，能够处理 TB 级以上的数据量。同时，具备质量识别和垃圾数据过滤的能力，能够确保数据的高质量。（六）数据库操作 1.熟悉 MySQL、MongoDB、Redis 等常见数据库的操作与优化，具备数据库设计、表结构创建、数据存储与查询等能力。 2.能够根据业务需求对数据库进行性能优化，如建立索引、优化查询语句、调整数据库配置等，提高数据存储与查询的效率。（七）沟通与协作 1.具备良好的沟通能力，能够清晰、准确地表达自己的技术观点与方案，与团队成员、产品经理、运维人员等进行有效的沟通与协作。 2.具有强烈的团队合作精神，能够积极主动地参与团队项目，分享自己的技术经验与知识，共同解决项目中遇到的技术难题，推动项目顺利完成。