当前位置:

img

爬虫工程师

五险一金;年终奖金;定期体检;餐饮补贴;专业培训

¥13000-¥25000 /月

  • check发布时间:2025-04-21
  • check职位类别:前端开发
  • check发布公司:柚柚兔(广州)科技有限公司
  • check工作地点:广州市-白云区
  • check联系人:吴先生
  • check联系电话:1875821****
立即申请

公司信息:

联系人:吴先生

联系电话:1875821****

公司地址:广州市白云区嘉禾街广云路408号107A

职位详情

quote
爬虫开发工程师(社交媒体方向)岗位说明书 一、岗位职责 (一)数据采集与系统运维 1.运用专业爬虫技术,每日定时从抖音、小红书等主流社交媒体 APP 及 WEB 平台,高效爬取海量数据,涵盖用户信息、内容发布、互动评论等核心板块. 2.对采集到的原始数据进行深度清洗,运用数据清洗算法与工具,去除重复、错误、不完整数据。随后进行结构化处理,依据预先设计的数据模型,将数据整理为便于存储与分析的格式,如 JSON、CSV 等。 3.负责将处理好的数据稳定入库至指定数据库,如 MySQL、MongoDB 等,保障数据存储的安全性与完整性。同时,构建数据备份机制,定期对重要数据进行备份,防止数据丢失。 4.持续监测和维护爬虫系统,及时发现并解决系统运行中的各类故障与异常,确保爬虫系统 7×24 小时稳定运行。 (二)反爬虫机制突破 1.深入剖析抖音、小红书等平台复杂的反爬虫机制,通过抓包分析、代码逆向等手段,精准识别防护算法、JS 混淆加密逻辑等关键反爬策略。 2.凭借丰富的实战经验,制定并实施有效的反爬虫突破方案,如利用机器学习算法实现验证码自动识别;通过模拟真实用户行为,规避平台基于行为模式的反爬检测。 3.实时跟踪平台反爬虫策略的更新与变化,及时调整和优化突破方案,确保爬虫系统始终具备应对最新反爬措施的能力。 (三)爬虫系统架构与优化 1.独立承担单独及分布式爬虫系统的设计与开发工作,依据业务需求与数据规模,合理选择技术架构与框架,如基于 Scrapy 框架构建分布式爬虫集群,确保系统具备良好的扩展性与高性能。 2.持续对爬虫系统进行维护与重构,优化系统代码结构,提升系统性能与稳定性。通过优化网络请求策略、调整数据存储方式等手段。 3.建立爬虫系统性能监测指标体系,实时监控系统的运行状态,包括但不限于数据抓取速度、成功率、资源利用率等,及时发现并解决性能瓶颈问题。 (四)数据深度清洗与管理 1.综合运用正则表达式、XPath、CSS 选择器、BeautifulSoup 等信息抽取技术,从采集到的数据中精准提取关键信息。 2.对提取后的信息进行二次清洗与校验,确保数据的准确性与完整性。通过建立数据质量评估机制,定期对数据质量进行评估与分析,不断优化数据清洗流程。 3.负责管理数据仓库,对数据进行分类、存储与检索,构建高效的数据索引机制,实现数据的快速查询与调用,提升数据的使用效率。 (五)自动化控制技术应用 1.运用 APP 逆向抓取技术,深入分析社交媒体 APP 的内部结构与数据传输机制,实现对 APP 端数据的高效采集。 2.熟练使用浏览器模拟抓取技术,如 Selenium、Puppeteer 等,模拟真实用户在浏览器中的操作行为,突破平台基于浏览器环境的反爬限制,提高数据抓取的成功率。 3.持续探索与应用新的自动化控制技术,优化数据采集流程,降低人工干预成本。 (六)技术文档编写与团队支持 1.编写详细、规范的技术开发文档,包括但不限于爬虫系统设计文档、反爬虫策略文档、数据处理流程文档等,确保文档的完整性与可读性,为团队后续开发与维护提供有力支持。 2.积极为团队其他开发成员提供技术指导与支持,解答技术难题,分享技术经验,提升团队整体技术水平。在项目开发过程中,与产品、运维等团队紧密协作,确保项目顺利推进。 二、任职要求 (一)教育背景 计算机科学、软件工程、信息与计算科学等相关专业,本科及以上学历。 (二)编程语言 1.熟练掌握 Python 语言,具备扎实的 Python 编程基础,能够独立完成复杂的爬虫程序开发,熟悉 Python 常用的数据处理与分析库,如 Pandas、NumPy 等。 2.至少熟练掌握 Node.js、Java 中的一门编程语言,具备使用该语言进行后端开发或与爬虫系统进行集成的能力,如利用 Node.js 开发爬虫调度服务,或使用 Java 实现数据存储接口。 (三)爬虫框架与工具 1.精通 Scrapy、BeautifulSoup、Selenium 等主流爬虫框架,具有丰富的框架定制与开发经验,能够根据实际业务需求对框架进行优化与扩展。 2.熟练使用各类抓包工具,如 Charles、Fiddler 等,能够通过抓包分析平台数据传输协议与反爬虫机制。同时,熟练掌握逆向分析工具,如 Apktool、dex2jar、JD - GUI、Frida、IDA 等,具备 APP 逆向分析与破解的能力。 (四)反爬虫技术 1.深入理解常见的反爬虫策略,如 IP 限制、验证码、滑块验证、账号限制等,具备丰富的应对经验,能够独立制定有效的反爬虫解决方案。 2.掌握机器学习、深度学习在反爬虫领域的应用,如利用 OCR 技术识别验证码,使用深度学习模型模拟用户行为,提高反爬虫的智能化水平。 (五)信息抽取与数据处理 1.精通正则表达式、XPath、CSS 选择器、BeautifulSoup 等信息抽取方法,能够编写高覆盖率、高准确率的正则表达式,从复杂的网页结构中精准提取所需信息。 2.熟练掌握大规模数据采集、清洗、去重和分类等技术,具备丰富的数据处理经验,能够处理 TB 级以上的数据量。同时,具备质量识别和垃圾数据过滤的能力,能够确保数据的高质量。 (六)数据库操作 1.熟悉 MySQL、MongoDB、Redis 等常见数据库的操作与优化,具备数据库设计、表结构创建、数据存储与查询等能力。 2.能够根据业务需求对数据库进行性能优化,如建立索引、优化查询语句、调整数据库配置等,提高数据存储与查询的效率。 (七)沟通与协作 1.具备良好的沟通能力,能够清晰、准确地表达自己的技术观点与方案,与团队成员、产品经理、运维人员等进行有效的沟通与协作。 2.具有强烈的团队合作精神,能够积极主动地参与团队项目,分享自己的技术经验与知识,共同解决项目中遇到的技术难题,推动项目顺利完成。

猜你喜欢

1.95G 4G 4G 4G 4G 4G 4G 4G 4G 3.31G 2.62G 3.1G 3.05G 4.51G 4G 3.85G 2.56G 3.03G 3.72G 4G 2.3G 3.8G 3.7G 4.36G 2.71G 5.17G 6.34G 2.92G 4.05G 6.34G