数据治理工程师 L1:治理入门
数据治理入门指南,了解数据治理的基本概念、框架和实践方法。
views
| comments
数据治理工程师学习路线 - L1 治理入门#
[!abstract] 定位 L1 阶段的核心是理解数据治理的基本概念和价值,能够参与基础的数据治理工作,如数据质量检查、元数据维护等。
这份指南适合谁?#
- 0-1 年工作经验,对数据治理方向感兴趣
- 数据开发/分析转型数据治理
- 业务人员转型数据管理相关岗位
- 想了解数据治理是什么、做什么
常见困惑:数据治理到底是什么?#
“数据治理听起来很虚,具体做什么?”#
数据治理的本质:让数据可信、可用、可管。
| 不治理的痛点 | 治理后的状态 |
|---|---|
| 数据质量差,报表对不上 | 数据一致、可信 |
| 找不到想要的数据 | 数据可被发现、理解 |
| 不知道数据从哪来 | 数据血缘清晰 |
| 数据安全无保障 | 数据分级保护 |
| 口径定义混乱 | 统一标准定义 |
”数据治理和数据开发有什么区别?“#
| 维度 | 数据开发 | 数据治理 |
|---|---|---|
| 核心目标 | 让数据流动起来 | 让数据有序可信 |
| 工作内容 | ETL、数仓建设 | 标准制定、质量管理 |
| 关注点 | 功能实现、性能 | 规范、质量、安全 |
| 技能偏重 | 编程、系统设计 | 流程、规范、协调 |
[!tip] 两者关系 数据开发是”修路”,数据治理是”交通规则”。没有路,规则没意义;没有规则,路会乱成一团。
“数据治理需要很强的技术吗?”#
看具体方向:
| 治理方向 | 技术要求 | 核心能力 |
|---|---|---|
| 数据标准 | 低 | 业务理解、规范制定 |
| 数据质量 | 中 | SQL、规则配置 |
| 元数据管理 | 中 | 系统配置、数据建模 |
| 数据安全 | 高 | 安全技术、合规知识 |
阶段目标#
- 理解数据治理:明白为什么要治理、治理什么
- 掌握基础技能:能做数据质量检查、元数据维护
- 熟悉治理工具:会使用数据治理平台
- 建立治理意识:在日常工作中识别治理问题
核心技能#
1. 数据治理基础概念#
先理解”是什么”和”为什么”,再学”怎么做”
数据治理 vs 数据管理:
| 概念 | 定义 | 关系 |
|---|---|---|
| 数据治理 (Governance) | 决策权、策略、标准 | 制定规则 |
| 数据管理 (Management) | 具体执行、技术实现 | 执行规则 |
DAMA 数据管理知识体系:
┌─────────────────────┐
│ 数据治理 │
│ (核心与管理) │
└──────────┬──────────┘
│
┌──────────┬──────────┼──────────┬──────────┐
↓ ↓ ↓ ↓ ↓
┌─────────┐┌─────────┐┌─────────┐┌─────────┐┌─────────┐
│数据架构 ││数据建模 ││数据存储 ││数据安全 ││数据集成 │
└─────────┘└─────────┘└─────────┘└─────────┘└─────────┘
↓ ↓ ↓ ↓ ↓
┌─────────┐┌─────────┐┌─────────┐┌─────────┐┌─────────┐
│元数据 ││数据质量 ││主数据 ││数仓/BI ││文档管理 │
└─────────┘└─────────┘└─────────┘└─────────┘└─────────┘plaintext相关知识:数据治理概述 ↗、DAMA知识体系 ↗、数据治理框架 ↗
2. 数据质量基础#
数据质量是治理的核心目标之一
数据质量六大维度:
| 维度 | 含义 | 检查示例 |
|---|---|---|
| 完整性 | 数据不缺失 | 必填字段非空 |
| 准确性 | 数据正确 | 金额为正数 |
| 一致性 | 多处数据一致 | 订单状态和支付状态匹配 |
| 及时性 | 数据按时到达 | T+1 数据凌晨 6 点前就位 |
| 唯一性 | 无重复数据 | 主键不重复 |
| 有效性 | 符合业务规则 | 年龄在合理范围内 |
数据质量检查 SQL 示例:
-- 完整性检查:必填字段非空
SELECT COUNT(*) as null_count
FROM orders
WHERE user_id IS NULL OR order_time IS NULL;
-- 唯一性检查:主键不重复
SELECT order_id, COUNT(*) as cnt
FROM orders
GROUP BY order_id
HAVING COUNT(*) > 1;
-- 准确性检查:金额为正
SELECT COUNT(*) as invalid_count
FROM orders
WHERE amount <= 0;
-- 一致性检查:状态匹配
SELECT COUNT(*) as mismatch_count
FROM orders
WHERE order_status = 'paid'
AND payment_status != 'success';sql相关知识:数据质量管理 ↗、数据质量规则 ↗、数据质量监控 ↗
3. 元数据管理基础#
元数据是”关于数据的数据”,是找到和理解数据的钥匙
元数据类型:
| 类型 | 内容 | 作用 |
|---|---|---|
| 技术元数据 | 表结构、字段类型、存储位置 | 技术人员使用 |
| 业务元数据 | 业务含义、计算口径、负责人 | 业务人员理解 |
| 操作元数据 | 数据血缘、任务调度、运行日志 | 运维和问题排查 |
元数据管理核心能力:
┌─────────────────┐
│ 数据目录 │ ← 找到数据
└────────┬────────┘
│
┌─────────────┼─────────────┐
↓ ↓ ↓
┌─────────┐ ┌─────────┐ ┌─────────┐
│业务术语 │ │技术元数据│ │数据血缘 │
│ 理解数据 │ │描述数据 │ │追溯数据 │
└─────────┘ └─────────┘ └─────────┘plaintext4. 数据标准基础#
数据标准是统一数据定义的基础
数据标准内容:
| 标准类型 | 内容 | 示例 |
|---|---|---|
| 命名标准 | 表名、字段命名规范 | user_id, order_amount |
| 编码标准 | 枚举值、状态码定义 | 订单状态:1-待付款,2-已付款 |
| 术语标准 | 业务术语统一定义 | GMV = 所有订单金额之和 |
| 口径标准 | 指标计算口径 | DAU = 当日登录的去重用户数 |
为什么需要数据标准:
| 没有标准 | 有标准 |
|---|---|
| 同一个指标多个定义 | 统一定义,结果一致 |
| 字段名混乱 | 命名规范,易于理解 |
| 沟通成本高 | 术语统一,沟通顺畅 |
5. SQL 基础能力#
数据治理工作离不开 SQL 查询
必备 SQL 技能:
| 技能 | 用途 | 重要程度 |
|---|---|---|
| 基础查询 | 查看数据 | 必须 |
| 聚合统计 | 数据质量统计 | 必须 |
| 多表关联 | 一致性检查 | 重要 |
| 子查询 | 复杂质量规则 | 重要 |
数据治理常用 SQL 模式:
-- 数据分布分析
SELECT status, COUNT(*) as cnt,
ROUND(COUNT(*)*100.0/SUM(COUNT(*)) OVER(), 2) as pct
FROM orders
GROUP BY status;
-- 字段空值率分析
SELECT
COUNT(*) as total,
SUM(CASE WHEN user_name IS NULL THEN 1 ELSE 0 END) as null_count,
ROUND(SUM(CASE WHEN user_name IS NULL THEN 1 ELSE 0 END)*100.0/COUNT(*), 2) as null_rate
FROM users;
-- 数据时效性检查
SELECT MAX(update_time) as latest_update,
TIMESTAMPDIFF(HOUR, MAX(update_time), NOW()) as hours_ago
FROM orders;sql学习资源#
推荐书籍#
- 《DAMA 数据管理知识体系指南》- 数据管理圣经
- 《数据治理》- 入门概念
- 《数据质量管理》- 质量管理专题
实践建议#
- 检查你现有项目的数据质量问题
- 整理一份数据字典
- 画出一个数据表的血缘关系
这个阶段的难点#
| 难点 | 原因 | 突破方法 |
|---|---|---|
| 概念太多太抽象 | 数据治理体系复杂 | 先理解核心概念,逐步扩展 |
| 不知道从哪开始 | 没有系统性学习 | 从数据质量入手,最直观 |
| 业务理解不够 | 治理需要懂业务 | 多和业务沟通,理解数据含义 |
| 缺少实践机会 | 很多公司治理不成熟 | 自己发现问题,推动改进 |
可胜任的岗位#
| 岗位名称 | 核心要求 | 薪资范围(参考) |
|---|---|---|
| 数据治理专员 | 基础治理工作 | 8-15K |
| 数据质量分析师 | 质量检查、问题分析 | 10-18K |
| 元数据管理员 | 元数据维护 | 10-15K |
| 数据管理助理 | 数据管理相关工作 | 8-12K |
给这个阶段同学的建议#
做的事情#
- 从质量入手:数据质量问题最直观,容易出成果
- 建立敏感性:在日常工作中识别数据问题
- 学习业务:数据治理的目标是服务业务
- 整理文档:养成文档化的习惯
避免的事情#
- 只关注工具,忽略方法论
- 不懂业务就定标准
- 发现问题不推动解决
[!quote] 关键心态 数据治理的价值不在于”治”本身,而在于让数据更好地服务业务。始终记住这个目标。
下一阶段预告#
完成 L1 后,你可以进入 L2 治理实践 ↗,学习:
- 数据质量体系建设
- 数据血缘分析
- 数据安全基础
- 数据治理平台使用