数据质量成熟度模型:分析数据准备的五个级别

生成可供分析的数据的一个关键要求是数据必须是“好”的。各组织对良好数据质量的定义存在差异,这些定义符合其在分析和数据科学方面的成熟度。

由于两个原因,成熟度模型类比似乎适合这里。首先,模型中的关卡是相互依存的,在掌握较低的关卡之前不可能达到更高的关卡。其次,向更高层次移动不仅仅是工具或算法的问题,因为它还需要不同的流程和组织思维。

第1级:数据来源

了解数据来自哪里、如何收集、如何转换、为什么以及由谁转换,是任何可用数据集的最基本要求。例如,在临床环境中——如果我们不知道哪个实验室进行了测试,谁资助了这项研究,血压是站立还是坐下,或者在我们得到试验结果之前是否将某些患者从试验结果中剔除——数据实际上是无用的。

拥有关于每个数据集的明确出处、沿袭、所有者和其他元数据——甚至在查看数据本身之前——是任何数据分析之前的基本要求。在医疗保健领域,披露利益冲突、资金来源、隐私和其他道德考虑也是关键。

俗话说——“如果你足够折磨数据,它会告诉你任何事情”。

第2级:基本卫生

在这个级别,团队关注的是基本数据元素的统一表示:

  • 数字(格式为“3,500”或“3500”)
  • 空值(将“null”、“N/A”、“na”、“?”、“-1”和“未指定”格式化为单个值)
  • 标准单位和标准单位的转换(格式为“30lbs”至“13.6”,单位为 kg)
  • 地理空间点、圆、弧和多边形
  • 日期和时间、货币、姓名、地址、电子邮件、布尔值和其他常见类型

大多数这些价值观都有国际标准,尽管通常有不止一个“标准”在起作用。对于数据消费者而言,正确的选择始终是“工具本身可以理解的格式”——因此,如果该工具是 Tableau、R、pandas 或 Excel,答案可能会有所不同。

大多数提供数据质量指标、数据完整性或丰富性指标、自动数据规范化或主数据管理的工具都在这个级别上运行。

第 3 级:异常值、混乱和不太可能的组合

下一个级别超越单个数据元素,进入描述性统计数据和可能的错误。例如,一名患者服用 12,345 种不同类型的药物很可能是数据输入错误,或者至少是在计算对异常值敏感的描述性统计数据(如均值和标准差)时应排除的异常值。

有时问题不是个别异常值,而是一连串几乎是例外的情况。例如,在一个网站每秒网络流量的数据集中,10 分钟内从历史标准增加 100 倍的可能性要大得多,这很可能是机器人的结果,而不是真实用户活动的结果。Flurries 经常出现在时间序列数据中,必须根据具体情况决定保留或删除。

领域专家还应该深入挖掘以发现由于不太可能的组合而导致的错误。特别是在医疗保健领域,通常可以识别出临床上不太可能的组合。例如,在一个案例中,一个 25 岁的女性体重 535 磅本身是合理的,但查看同一患者的其他测量和实验室结果,很明显这是一个打字错误53.5磅的女人。这种“临床上不太可能的组合”通常是数据输入错误,应该在下游数据分析之前消除。

第 3 级需要更深入的统计知识以及 DataOps 团队更深入的领域专业知识。如示例所示,在此级别“固定”数据质量不再能够完全自动化。

第 4 级:覆盖缺口

下一个层次超越了将数据集的质量描述为一种通用度量——讨论是否适合给定的分析项目。这尤其涉及识别所提供数据中的差距,并找到补充它们的方法。

例如,考虑一个跟踪英国儿童疫苗接种率的项目。收集的数据可能存在空间覆盖缺口(即没有在威尔士收集数据)、时间覆盖缺口(有 15 年的数据,由于当年的预算限制,2010 年除外)或人口覆盖缺口(即不在学校没有被调查)。

这种差距的重要性在很大程度上取决于项目。例如,如果目标是识别有风险的孩子,那么找到不在学校的孩子可能很关键;然而,如果目标是比较男孩和女孩,这种差距可能不会破坏整个分析。做出正确的决定和更正需要您的分析团队和 DataOps 团队之间的协作。

第 5 级:偏见

在更高的层次上,运行完全集成的项目团队,团队结合了数据科学、DataOps 和软件工程师。人们每天都在同一个项目上工作,这样可以发现和解决已经“通过”所有先前级别的质量门的数据中细微但关键的偏差。

这最常适用于机器学习和数据挖掘项目。例如,假设我们正在寻找一种算法,该算法可以根据患者的医院临床记录自动分配 ICD-10 诊断和程序代码。为了训练它,我们只能从镇上的两家医院之一获得数据。两家医院都设有内科病房,但其中一家专攻心脏病学和肿瘤学(并且处理了大多数病例),而另一家专攻免疫学、内分泌学和老年医学。

请注意,无论我们选择哪家医院——我们的训练数据中诊断和程序代码的分布都将与我们将在“现实世界”中观察到的情况有所偏差,这将扭曲机器学习算法,因为先验分布训练数据中的数据将不同于在线观察到的数据。

数据集的选择也会导致其他不太明显的偏差。每家医院本质上都会经历不同的年龄、性别和合并症分布——因为在医疗保健领域,所有这些都是相关的。这意味着,由于这些关系和相关性,有监督和无监督学习算法都会以微妙但重要的方式出现偏差。

这在实践中具有重要意义,因为我们越来越依赖机器来做出影响人们健康和福祉的日常决策。您对训练数据的选择隐含地忽略了其中没有代表的人,并且可能会根据他们过去的行为过度惩罚或奖励那些被代表的人。这基本上是一个数据质量问题。

了解此类问题的存在并有效解决这些问题需要数据科学家和 DataOps 专家之间持续进行深入合作,这是生成机器学习模型或预测分析的必要条件,这些模型或预测分析不受未公开偏见的影响并经受住现实世界的考验采用。

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/135346.html<

(0)
运维的头像运维
上一篇2025-03-01 14:05
下一篇 2025-03-01 14:06

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注