牛卓群

联系方式564005905@qq.com
Githubhttps://github.com/gpvi

博客园: GIPV的主页 - 博客园

性别/出生:男 | 2000.12

教育经历

福州大学(211)| 计算机科学与技术 本科 | 2020.09-2024.07

  • 证书:CET6 | 荣誉:国家励志奖学金、全国大学生数学建模竞赛福建赛区二等奖
  • 核心课程:机器学习、数据结构与算法、操作系统、分布式系统、计算机网络(贴合AI Infra底层技术基础)

工作经历

深圳虾皮信息科技有限公司 | 后端开发工程师(DataInfra团队) | 2024.08-2025.04 | 深圳

核心职责:负责 API 与 K8s Operator 开发维护、监控系统整合、团队 CI/CD 流水线搭建维护,支撑 K8s 资源管理与核心业务高效交付。

  • 基于公司 K8s 资源管理平台,优化 cluster 工单审批流程,完善全流程操作,通过标准化 API 提升资源交付效率与操作可追溯性。
  • 参与 K8s Operator 开发维护,完成集群标签更新、状态同步,解决集群关机后资源未回收问题,保障资源生命周期管理规范。
  • 基于 Prometheus+Grafana 开发监控模块,使用 Golang 编写指标采集接口,实现 Redis/CPU 等组件实时可观测,故障发现时间缩短 20%。
  • 参与团队核心 API 开发维护,通过健壮编码与异常兜底,支撑服务达成 99.9% SLA 可用性,稳定服务推荐系统等核心业务。
  • 经 SQL 分析与代码审计,优化数据库非必要写入逻辑,减少 10% 无效存储,提升元数据准确性与数据库性能。
  • 协同团队优化 GitLab CI/CD 流水线,改进编译、打包及测试流程,交付效率提升 30%,平均发布周期缩短 2 天。

项目经历

K8s Operator 集群管理工具开发(云原生基础设施)

技术栈:Go、K8s Operator、自动化脚本、DNS管理、Linux
项目简介:开发K8s自定义Operator实现集群全生命周期自动化管理,解决版本迭代引发的集群状态异常问题,为AI服务/模型的K8s集群部署提供可复用的基础设施管理方案。

  • 修复僵尸/孤儿集群问题,编写自动化脚本批量对齐集群状态,保障K8s集群资源高效利用,适配AI训练/推理实例的集群资源弹性管理;

  • 设计toggle-stop流量切换机制,实现服务无感知下线与连接清理,可复用为AI推理服务的流量管理与版本迭代;

  • 开发集群管理标准化API,支撑集群删除、状态查询等核心操作,为AI平台的集群资源调度提供统一接口层。

RedisCluster-Manager 轻量化容器化工具开发(容器化基础设施)

技术栈:Golang、Podman、Redis Cluster、Cobra框架、Podman Network
项目简介:基于Podman容器化开发Redis集群全生命周期自动化管理工具,搭建轻量级容器化测试/运行基础设施,其设计思路可直接复用至AI模型的本地/测试环境容器化部署。

  • 封装Podman容器引擎,实现一键拉起多实例容器集群,设计容器网络隔离策略,为AI模型多实例测试、小批量训练提供容器化基础设施支撑;

  • 基于Cobra框架构建标准化CLI工具,封装核心操作命令,支持自动补全与帮助文档,体现AI Infra工具链的开发与工程化设计能力;

  • 实现集群及关联资源零残留清理,保障测试环境纯净,可复用为AI模型训练/推理的测试环境资源规范化管理。

高性能C++线程池(AI高并发计算支撑组件)

技术栈:C++、STL、Linux、并发编程、面向对象设计
项目简介:为AI场景打造轻量级高性能并发处理基础设施,实现线程资源复用与动态调度,解决AI多线程推理、批量数据预处理的高并发需求,提升AI计算处理效率与响应速度。

  • 封装线程池核心类,支持根据AI推理/数据处理任务量动态调度线程,兼顾处理效率与服务器资源利用率,适配AI计算任务负载波动场景;

  • 基于mutex互斥锁+条件变量实现线程安全控制,保障高并发下任务队列的阻塞/唤醒,支撑AI批量推理的高并发任务处理;

  • 实现线程动态扩缩容与线程安全任务队列,为AI多线程推理、分布式数据预处理提供核心底层组件。

家庭视频AI推理服务(AI模型全链路工程化落地)

技术栈:Python、YOLOv8、PyTorch、ONNX、ONNX Runtime、Flask、Flask-CORS、OpenCV、Linux、CUDA、RTX 4070
项目简介:主导完成目标检测AI模型从算法优化到消费级硬件部署的端到端工程化落地,搭建轻量级AI视频推理服务,实现实时检测、录制、检索一体化能力,验证AI模型在边缘硬件的高性能适配与稳定运行,单帧推理耗时降低40%,模型精准率达0.71,系统支持2小时视频切片存储且7×24小时稳定运行。

  • 算法与数据优化:选型YOLOv8n轻量化模型,替换WIoU损失函数优化锚框回归;手工标注800+长尾样本并完成数据增强,模型mAP50mAP_{50}达0.6,精准率从0.41提升至0.71,解决家庭小目标识别痛点;

  • 推理性能优化:将PyTorch模型导出为ONNX格式并裁剪冗余节点,基于ONNX Runtime启用TensorRT EP加速,调用CUDA核心优化算子调度,单帧推理耗时从28ms降至17ms,满足实时推理(30FPS)需求;

  • 服务架构开发:基于Flask搭建轻量级Web服务,设计“录制-保存-传输”解耦的多线程架构,通过线程安全队列管理视频帧,实现RTSP视频流解析、推理调用、切片存储全流程,核心响应延迟<100ms;

  • 工程化部署落地:设计标准化HTTP API体系,通过Flask-CORS解决跨域问题,优化IYUV视频编码避免帧丢失,完成从模型封装到生产级部署的全流程验证,API调用成功率100%;

  • 容错与性能调优:添加日志监控、摄像头3次异常重试机制,优化模型单例加载逻辑减少50%内存占用,视频切片压缩存储降低30%磁盘占用,系统无人工干预稳定运行>72小时。

新能源发电站时序预测(AI训练数据治理工具链开发)

技术栈:Python、LGBM、XGBoost、netCDF4、Pandas、NumPy、Scikit-learn、Linux
项目简介:针对新能源发电站功率时序预测场景的多源异构数据痛点,基于LGBM/XGBoost构建预测模型,开发一站式AI训练数据治理工具链,实现多源气象数据解析、清洗、特征融合与标准化,数据可用率提升至99.5%,预测准确率较基准模型提升8%。

  • 多源数据解析与清洗:开发netCDF4格式气象数据自动化解析工具,实现多维度网格数据解析与维度压缩;针对缺失值问题,采用“随机生成+业务规则”补全策略(如基于历史同期数据分布随机生成),补全8%的缺失数据,解决数据不完整问题;

  • 特征工程与融合:整合风速、温度、湿度等12类基础特征,构建时间窗统计特征(小时/日均值)、交叉特征(风速×温度)共28维特征集;通过特征融合降维,保留核心特征维度,提升模型训练效率15%;

  • 预测模型构建与验证:对比LGBM/XGBoost模型效果,最终选用LGBM作为核心预测模型,优化学习率、树深度等超参数,模型在测试集上MAE降低至5.2,预测准确率达89%,满足发电站功率预测实际业务需求;

  • 工具链工程化:将数据处理、特征工程、模型训练流程封装为标准化脚本,支持“一站一策”差异化配置,可快速适配不同发电站的数据治理与预测需求,提升AI模型落地效率。

专业能力

  1. 云原生AI基础设施开发:精通K8s/Podman容器化技术、K8s Operator开发,能为AI模型提供集群资源管理、容器化部署、弹性调度的云原生底层支撑;
  2. AI模型全链路工程化:熟练掌握YOLOv8模型优化、ONNX跨框架转换、TensorRT/CUDA推理加速,能基于Flask搭建高可用AI推理服务,实现从算法到生产级部署的端到端落地;
  3. AI高并发/高性能计算:精通Golang/C++并发编程,具备线程池、线程安全队列等底层组件开发能力,能支撑AI多线程推理、批量数据预处理的高并发需求;
  4. AI数据基础设施:熟练开发多源异构数据治理工具链,涵盖解析、清洗、缺失值补全、特征融合/工程全流程,精通LGBM/XGBoost时序预测模型构建,为AI模型训练提供高质量数据支撑;
  5. 自动化与监控:精通GitLab CI/CD流水线搭建、Prometheus+Grafana监控体系开发,能实现AI工程化交付自动化与AI服务全链路监控预警;
  6. 多语言开发能力:熟练使用Golang/C++进行AI Infra底层基础设施开发,使用Python进行AI数据工具链、模型部署适配开发,具备跨语言的AI Infra全栈开发能力。

总结

  1. 核心竞争力:以云原生基础设施开发为核心,融合AI模型全链路工程化、高并发组件开发、时序预测数据治理能力,形成“云原生+AI工程化+数据治理”的复合优势,高度匹配AI Infra岗位需求;
  2. 项目逻辑:从云原生底层工具(K8s Operator/Redis工具)→AI高并发支撑组件(线程池)→AI模型全链路落地(视频推理服务)→AI数据治理(新能源预测),层层递进体现AI Infra“底层支撑-场景落地-数据保障”的核心能力;
  3. 差异化优势:兼具大厂云原生工作经验、AI模型工程化落地实践、时序预测数据治理能力,能同时承接AI Infra岗“模型部署、工具链开发、数据预处理”核心工作。