安徽大学应用统计学本科在读,预计 2027 年毕业。
关于
数据、平台与科研协作经验
参与过面向科研场景的数据采集、清洗、筛选、分析、标注、评估与技术文档编写。
具备大模型相关数据处理、AI 标注平台内网部署,以及新加坡国立大学暑期科研经历。
教育
应用统计学与数据分析基础
安徽大学
本科,应用统计学
2023 - 2027
主修课程
时间序列分析应用随机过程数据结构统计预测与决策多元统计分析Java 程序设计
- 在 Java 程序设计、数据结构及数学相关课程中取得优异成绩。
- 参与人工智能与数据科学、机器学习与深度学习相关课程训练。
- 于 2025 年暑期前往新加坡国立大学参加暑期科研项目。
- 以共同第一作者身份在 ICCGV(EI)会议发表论文一篇。
经历
科研与企业数据实习经历
围绕大模型数据、标注平台、质量评估和技术文档展开。
2025.10 - 2026.04
科研助理
中国科学院信息工程研究所
- 支持大模型相关科研任务中的数据采集、清洗、筛选、处理与分析。
- 基于 Label Studio 参与内网私有化部署与中文适配,保障科研数据安全。
- 参与多模态数据标注、模型输出评估与技术文档编写。
- 编写部署指南、操作手册等技术资料,支持平台使用与团队协作。
2024.07 - 2024.08
数据分析实习生
科大讯飞股份有限公司
- 面向大模型业务提供数据分析与质量评估支持。
- 对模型生成数据进行分析、筛选、清洗和整理,支持后续训练或评测流程。
- 协助数据质量检查与可用性改进,相关数据支持准确度约 80%。
- 参与采购数据信息管理,维护相关台账与数据记录。
2023.12 - 2024.02
数据处理实习生
科大讯飞股份有限公司
- 负责大模型相关任务中的基础数据整理、清洗、分类与格式规范化。
- 执行数据筛选、去重与结构化处理,为模型训练和数据分析提供输入。
- 协助模型输出初步检查并记录数据相关问题。
- 支持内部数据资料整理与信息管理。
项目
数据工程、标注平台与大模型评估项目
数据工程师
百万级医疗数据库全流程构建
- 面向精准医疗科研需求,参与高质量医疗数据库建设,覆盖数据采集、清洗、脱敏、结构化、版本管理与质量控制。
- 整合电子病历、检验记录等多源异构数据。
- 制定标准化字段映射规则与质控指标,完成超百万条敏感医疗数据的合规处理与入库。
- 引入自动化校验机制与缺失值处理策略,数据完整率达 96%+,标注一致性达 94% 以上。
平台建设负责人
Label Studio 开源标注平台本地化部署与中文适配
- 面向内网科研环境主导 Label Studio 私有化部署,基于 Docker 完成无外网依赖服务搭建。
- 完成前端界面、交互提示、错误信息和后台管理模块的中文本地化,覆盖率超 98%。
- 负责全功能测试、多浏览器兼容性验证和中文显示优化。
- 编写平台部署与标注操作文档。
- 构建人工标注与多模型预标注协同流程,相关方法形成 SCI 论文 1 篇(在投)。
研究员,新加坡国立大学
暑期研究实践
- 围绕大模型本地部署、VQA 视觉问答及生成结果评估开展研究。
- 独立完成 Flamingo-3B、Flamingo-9B、Qwen-13B、ChatGPT-MINI 等多个大模型的部署与运行测试。
- 使用部署模型完成 VQA 任务,并编写脚本进行多维度评分与对比分析。
- 参与小组论文撰写与成果整理,完成相关论文发表。
能力
面向数据分析与运营岗位的技能组合
编程与数据处理
PythonSQLJava(基础)数据清洗结构化数据处理数据质量校验缺失值处理字段映射
数据库与数据工程
百万级数据处理数据库建设数据入库版本管理质控流程设计
AI 与机器学习工具
Label StudioDocker模型数据处理多模态标注VQA模型输出评估
统计与分析
时间序列分析应用随机过程多元统计分析统计预测与决策
文档与协作
技术文档部署手册标注操作指南科研协作
联系
可通过公开邮箱联系
页面仅展示适合公开发布的联系方式。
邮箱
andyxu1619@gmail.com期望城市
合肥