数据分析师 / 数据开发

应用统计学背景，聚焦数据流程、IT 工具体系与 AI 科研平台。

具备数据工程、数据分析、AI 数据流程与科研工具链部署经验，熟悉 Python、SQL、百万级医疗数据库建设、结构化数据处理、机器学习流程，以及 Label Studio 等开源 AI 平台的 Docker 私有化部署与中文适配。

数据分析师数据开发

下载简历

联系我

期望城市

合肥

邮箱

andyxu1619@gmail.com

关于

数据、平台与科研协作经验

安徽大学应用统计学本科在读，预计 2027 年毕业。

参与过数据工程、数据分析、AI 数据流程、IT 工具图谱、文档流程梳理与科研工具链部署相关工作。

具备大众汽车（中国）科技有限公司 IT 工具与项目文档流程梳理、中国科学院信息工程研究所科研数据流程、科大讯飞大模型数据支持，以及新加坡国立大学暑期科研经历。

英语可作为工作语言；英语水平达到欧洲共同语言参考框架（CEFR）C1 标准，雅思总分 7.0（听力 8.5、阅读 6.5、写作 6.0、口语 6.0）。

教育

应用统计学与数据分析基础

安徽大学

本科，应用统计学

2023 - 2027

主修课程

时间序列分析应用随机过程数据结构统计预测与决策多元统计分析

在 Java 程序设计、数据结构及数学相关课程中取得优异成绩。
完成学校合作的人工智能与数据科学项目，覆盖机器学习、数据分析与挖掘、机器学习与深度学习应用。
于 2025 年暑期前往新加坡国立大学参加暑期科研项目。
以共同第一作者身份在 ICCGV（EI）会议发表论文一篇。

经历

企业数据开发与科研数据经历

覆盖 IT 工具图谱、文档工作流、大模型数据支持、标注平台与科研数据流程。

2026.05 - 至今

数据开发实习生

大众汽车（中国）科技有限公司

英语作为工作语言之一，支持跨部门 IT 工具、权限和项目文档沟通。
识别并绘制各 Powerhouse 部门正在使用的 IT 工具图谱，包括系统之间的连接关系、访问方式与基于角色的权限。
识别主要项目文档及其创建所用程序，形成 IT 工具与文档工作流的优先级总览。
分析工具和文档中的缺口与冗余，并提出整合不同 IT 工具的解决方案，以实现更顺畅的工作流并减少重复工具。
支持 IT 协调工作，协助 Polarion、飞书、CATIA 等工具申请，并编写工具申请和角色管理说明。

2025.10 - 2026.04

科研助理

中国科学院信息工程研究所

支持端到端科研数据流程，包括数据采集、清洗、脱敏、结构化、质量控制与版本管理。
参与 Label Studio 的本地化部署与中文适配，服务于安全内网环境下的数据标注与 AI 科研工作流。

2024.07 - 2024.08

数据分析实习生

科大讯飞股份有限公司

为大模型工作流提供全流程数据支持，包括数据分析、筛选、清洗及处理后投入模型开发使用。
参与采购相关数据信息管理，并协助内部业务与 AI 相关任务的数据整理。

2023.12 - 2024.02

数据处理实习生

科大讯飞股份有限公司

处理并清洗大模型生成数据，为后续分析与模型输入准备可用数据集。
协助数据筛选、清洗处理及采购相关信息管理。

项目

数据工程、标注平台与大模型评估项目

数据工程师

百万级医疗数据库全流程构建

2025.12 - 至今

面向精准医疗科研需求，从 0 到 1 实施高质量医疗数据库建设方案，涵盖数据采集、清洗、脱敏、结构化、版本管理等全生命周期。
整合电子病历、检验记录等多源异构数据，制定标准化字段映射规则与质控指标，完成超百万条敏感医疗数据的合规处理与入库。
引入自动化校验机制与缺失值填补策略，数据完整率达 96%+，标注一致性超 94%。
为后续临床分析与 AI 模型训练提供高可信度数据基底，并支撑课题组后续模型训练建模研究。

平台建设负责人

科研数据标注平台（Label Studio）的本地化部署与汉化实施

2025.10 - 至今

为满足内网科研环境对数据安全与隐私保护的要求，主导 Label Studio 私有化部署，基于 Docker 完成无外网依赖的稳定服务搭建，实现“数据不出域”。
独立完成平台全栈深度汉化，覆盖前端界面、交互提示、错误信息及后台管理模块，本地化覆盖率超 98%。
负责全功能测试、多浏览器兼容性验证及中文显示优化，修复时区、编码、字体渲染等关键问题。
编写《平台部署手册》《标注操作指南》等技术文档，并构建“人工 + 多模型预标注”协同流程；相关方法论形成 SCI 论文 1 篇（在投）。

研究员，新加坡国立大学

暑期研究实践

2025 年暑期

于新加坡国立大学参加暑期研究项目，围绕大模型本地部署、VQA 视觉问答与生成结果评估开展研究。
独立完成 Flamingo-3B、Flamingo-9B、Qwen-13B、ChatGPT-MINI 等多个大模型的部署。
使用部署模型完成 VQA 任务，并编写脚本对生成内容进行多维评分。
参与小组相关论文成果整理与发表。

能力

面向数据分析与数据开发的技能组合

编程与数据处理

PythonSQLJava（基础）数据清洗结构化数据处理数据库建设质量控制统计分析

数据库与数据工程

百万级数据处理数据库建设数据入库版本管理质控流程设计

AI 与科研工具

Label StudioDocker机器学习流程大模型数据支持VQAVQA 评估开源平台部署与本地化

统计与分析

时间序列分析应用随机过程多元统计分析统计预测与决策

工作流与文档

IT 工具图谱访问与角色管理文档技术文档技术手册标注操作指南多浏览器测试

简历

下载公开版简历

下载文件由公开展示内容生成，不直接链接原始简历 PDF。

公开版简历

保留教育、经历、项目、技能和公开邮箱；不显示电话、年龄或性别。

下载中文 PDF

下载英文 PDF

联系

可通过公开邮箱联系

页面仅展示适合公开发布的联系方式。

邮箱

andyxu1619@gmail.com

期望城市

合肥