数据挖掘逻辑体系结构的内容类型有哪些

在 Microsoft SQL Server Analysis Services 中,可以定义挖掘结构中各列的数据类型,以便影响创建挖掘模型时算法对这些列中数据的处理方式。不过,定义列数据类型只向算法提供有关列中数据的类型的信息,而不提供有关该数据的行为的信息。因此,Analysis Services 中的每个数据类型都支持一种或多种数据挖掘内容类型,可以使用这些内容类型来说明列包含的内容的行为。例如,如果列内容以特定的间隔(如一周中的某几天)重复,则可以将该列的内容类型指定为循环。

有些算法要求提供特定的数据类型和内容类型才能正常工作。例如,Microsoft Naive Bayespdf 算法的输入不能为连续列,并且不能预测连续值。某些内容类型(如 Key Sequence)只能由特定算法使用。有关算法以及每种算法所支持的内容类型的列表,请参阅数据挖掘算法(Analysis Services – 数据挖掘)。

下表介绍了数据挖掘中使用的内容类型,并标识了支持每种类型的数据类型。

Discrete

离散意味着列包含数值之间没有连续体的有限数量的数值。例如,性别列是一个典型的离散属性列,这是因为该数据表示特定数量的类别。

离散属性列中的值不能意味着排序,即使这些值为数值也是如此。此外,即使用于离散列的值为数值,也无法计算小数值。电话区号即为数值离散数据的典型示例。

所有数据挖掘数据类型均支持 Discrete 内容类型。

Continuous

此列包含的值表示某一允许中间值的范围中的数值数据。与表示有限、可数数据的离散列不同,连续列表示可缩放度量,且数据可能包含无限数目的小数值。温度列即为连续属性列的示例。

以下数据类型支持 Continuous 内容类型:Date、Double 和 Long。

Discretized

该列包含表示组或存储桶的值,这些值属于从连续列派生的值。存储桶被视为有序的离散值。

离散化是将一组连续数据的值放入存储桶的过程,以便得到有限数目的可能值。只能离散数值数据。

您可以手动离散数据,以确保获取所需的存储桶,还可以使用 SQL Server Analysis Services 中提供的离散方法。某些算法自动执行离散。有关详细信息,请参阅如何更改挖掘模型中列的离散化。

以下数据类型支持 Discretized 内容类型:Date、Double、Long 和 Text。

Key

该列唯一地标识一行。在事例表中,键列通常为数值或文本标识符。将内容类型设置为 key 可指示该列不应用于分析,而仅应用于跟踪记录。

嵌套表也有键,但嵌套表键的用法稍有不同。如果某列是您需要分析的属性,则在嵌套表中将内容类型设置为 key。嵌套表键的值对于每个事例来说都必须唯一,但在整个事例集中可以重复。

例如,如果分析的是客户购买的产品,则可以对于事例表中 CustomerID 列将内容类型设置为键,然后对于嵌套表中 PurchasedProducts 列再次将内容类型设置为键。

注意:

只有在使用已被定义为 Analysis Services 数据源视图的外部数据源中的数据时,嵌套表才可用。

以下数据类型支持此内容类型:Date、Double、Long 和 Text。

Key Sequence

将内容类型设置为 key sequence 时,它指示列包含表示一个事件序列的值。这些值是有序值,但不必按等差排列。

以下数据类型支持此内容类型:Double、Long、Text 和 Date。

Key Time

将内容类型设置为 key time 时,它指示两件事情:第一,值按顺序排列并表示时间刻度。第二,模型必须为时序模型或顺序分析和聚类分析模型。只有在这些模型中,您才可以将列指定为键时间。

以下数据类型支持此内容类型:Double、Long 和 Date。

Table

嵌套表为列的一种特殊类型,它包含另外一个数据表,该数据表中有一列或多列和一行或多行。对于事例表中的任意特定行,此列可以包含多个值,所有的值均与父事例记录相关。例如,如果主事例表包含一个客户列表,则可能有多个包含嵌套表的列,例如,ProductsPurchased 列,嵌套表在该列中列出了此客户过去购买的产品,Hobbies 列出了该客户的兴趣。

此列的数据类型始终为 Table。

Cyclical pdf

该列包含表示循环有序集的值。例如,一周内顺序编号的七天便是循环有序集,因为第一天紧跟第七天。

循环列就内容类型而言既有序又离散。

Analysis Services 中所有的数据挖掘数据类型都支持此内容类型。但是,大多数算法将循环值视为离散值,不会进行特殊处理。

Orderedpdf

Ordered 内容类型定义了序列或顺序;但是,用于排序的值并不表示该集中值之间的任何差或量级关系。例如,如果有序属性列包含按照等级顺序从一到五排列的有关技术等级的信息,则技术等级之间的差并不包含什么暗示信息;技术等级五不一定比技术等级一好五倍。

有序属性列就内容类型而言是离散的。

Analysis Services 中所有的数据挖掘数据类型都支持此内容类型。但是,大多数算法会将已排序值视为离散值,不会进行特殊处理。

Classified

除了前面列出的可通用于所有模型的内容类型以外,对于某些数据类型,还可以使用已分类列定义内容类型。

原文链接:http://www.cnblogs.com/codeaspnet/archive/2011/07/22/2114400.html

【编辑推荐】

  1. 代号:Denali,SQL Server再出击
  2. 说说SQL Server编年史
  3. 简单说说SQL Server上的加密术
  4. 擦亮自己的眼睛去看SQL Server

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/230916.html<

(0)
运维的头像运维
上一篇2025-04-19 11:12
下一篇 2025-04-19 11:14

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注