登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入 新註冊 | 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / EMS,時效:出貨後2-3日

2024年03月出版新書

2024年02月出版新書

2024年01月出版新書

2023年12月出版新書

2023年11月出版新書

2023年10月出版新書

2023年09月出版新書

2023年08月出版新書

2023年07月出版新書

2023年06月出版新書

2023年05月出版新書

2023年04月出版新書

2023年03月出版新書

2023年02月出版新書

『簡體書』Informatica PowerCenter权威指南

書城自編碼: 2650507
分類: 簡體書→大陸圖書→計算機/網絡程序設計
作者: 杜绍森 著
國際書號(ISBN): 9787121270451
出版社: 电子工业出版社
出版日期: 2015-09-01
版次: 1
頁數/字數: 348/570000
書度/開本: 16开 釘裝: 平装

售價:NT$ 573

share:

** 我創建的書架 **
未登入.



新書推薦:
像亚马逊一样思考
《 像亚马逊一样思考 》

售價:NT$ 442.0
中国震撼
《 中国震撼 》

售價:NT$ 403.0
以讹传讹:错误信息如何传播
《 以讹传讹:错误信息如何传播 》

售價:NT$ 437.0
大学问·生活中的意义
《 大学问·生活中的意义 》

售價:NT$ 442.0
待客之道:7-Eleven如何把客户体验做到极致
《 待客之道:7-Eleven如何把客户体验做到极致 》

售價:NT$ 386.0
空腹力(诺贝尔奖得主研究成果!科学空腹,让身体脱胎换骨!)
《 空腹力(诺贝尔奖得主研究成果!科学空腹,让身体脱胎换骨!) 》

售價:NT$ 325.0
邓小平视察纪实
《 邓小平视察纪实 》

售價:NT$ 549.0
财商养成第一课
《 财商养成第一课 》

售價:NT$ 325.0

建議一齊購買:

+

NT$ 656
《 触手可及的大数据分析工具——Tableau案例集 》
+

NT$ 579
《 数据仓库工具箱(第3版)——维度建模权威指南(大数据应用与技术丛书) 》
+

NT$ 822
《 Hadoop权威指南(第3版) 》
+

NT$ 1780
《 Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案 》
+

NT$ 642
《 Hive编程指南 》
+

NT$ 836
《 深入浅出数据分析 》
編輯推薦:
Informatica大中国区专家力作,内容权威、可靠;
全面而系统地讲解了Informatica PowerCenter,并辅以大量案例以辅助读者实践;
提供与作者在线交流的机会(扣扣群:212017946)
內容簡介:
在大数据时代,掌控数据首先需要掌握数据的处理能力。俗话说:“工欲善其事,必先利其器。”Informatica PowerCenter作为业界广泛使用的数据处理工具之一,被全球多数大型机构、组织认可并采用。__eol__本书全面地介绍了Informatica PowerCenter的主要功能及高级特性。__eol__本书分为3个部分:**部分为基础篇,包括第1~4章,系统介绍了PowerCenter的基础组件和常用功能,并在其中穿插了大量实践案例;第二部分为高级篇,包括第5~8章,系统介绍了PowerCenter并行、集群、性能调优和字符集管理等高级内容;第三部分为扩展篇,包括第9章,简要介绍了CDC的相关知识,PowerCenter与SAP、MPP、Hadoop集成,以及非结构化和半结构化数据处理能力。__eol__
關於作者:
杜绍森,任Informatica大中国区资深顾问。从PowerMart 5开始使用Informatica产品,自PowerCenter 8.1.1版本发布就一直任职于Informatica公司,服务于Informatica近10年时间,帮助Informatica用户设计和构建系统,或者对系统进行重构和调优。之前曾作为系统架构师、项目经理等服务于惠普及本地公司,从事电信行业计费及数据仓库项目。
目錄
第1章 PowerCenter Hello World世界
1.1 Informatica Hello World
1.2 PowerCenter架构和客户端简介
1.2.1 PowerCenter架构
1.2.2 PowerCenter客户端
1.3 PowerCenter Hello World
第2章 PowerCenter基础组件
2.1 Source
2.1.1 数据库源
2.1.2 文本文件源
2.2 Target
2.2.1 数据库目标
2.2.2 文本文件目标
2.3 Expression表达式
Expression中的变量端口(Variable Port)
2.4 Filter
2.5 Source Qualifier
2.5.1 Source Qualifier的作用
2.5.2 数据库数据源的Source Qualifier
2.5.3 Source Qualifier自定义SQL
2.5.4 Source Qualifier复杂关联
2.6 Sorter
2.7 Joiner
2.7.1 关联类型
2.7.2 Sorted Joiner
2.7.3 Joiner有什么独特作用
2.7.4 自关联(Self-Join)
2.8 Lookup
2.8.1 Lookup Caching enabled
2.8.2 非连接的Lookup
2.8.3 Lookup SQL Override
2.8.4 共享Lookup Cache
2.8.5 Dynamic Lookup
2.8.6 Lookup、Source Qualifier和Joiner的对比
2.9 Stored Procedure
2.9.1 Connected Stored Procedure
2.9.2 Unconnected Stored Procedure
2.9.3 Pre- or Post-Session Stored Procedure
2.10 Union
2.11 Transaction Control
2.11.1 Transaction Control有效性问题
2.11.2 Transaction Control组件
2.12 Sequence
2.12.1 Sequence的常规用法
2.12.2 共享Sequence
2.12.3 可重用的Sequence
2.13 Aggregator
2.13.1 条件聚合
2.13.2 使用Aggregator进行行列转换
2.14 Rank
2.15 Update strategy
2.15.1 Treat source rows as属性的使用
2.15.2 Update strategy使用
2.15.3 如何实现Update else Insert
2.15.4 Update Stagety案例:缓慢变化维
2.16 SQL Transformation
2.16.1 Script Mode
2.16.2 Static Query Mode
2.16.3 Dynamic Query Mode
2.17 Java Transformation
2.17.1 Java Transformation简介
2.17.2 Passive Java Transformation
2.17.3 Active Java Transformation
2.17.4 常见错误说明
2.18 Normalizer
2.19 Router
2.20 Custom Tranformation
2.21 HTTP Transformation
2.22 XML组件组
2.23 Transformation中的一些概念
2.23.1 Connect与Unconnect
2.23.2 Active与Passive
第3章 Workflow执行、监控
3.1 Session
3.1.1 Reusable Session
3.1.2 非Reusable Session
3.2 *简单、*常用的Workflow
3.2.1 并行执行
3.2.2 串行执行
3.2.3 调度
3.3 Worklet
3.4 Command
3.5 Control
3.6 发送E-mail
3.6.1 配置发送E-mail
3.6.2 Workflow中使用E-mail
3.7 Event Tasks
3.7.1 用户自定义事件使用
3.7.2 预定义事件使用
3.8 Timer
3.9 Decision
3.10 Assignment
第4章 常用功能汇集
4.1 Debugger
4.2 MappletReusable Transformation
4.2.1 Reusable Transformation
4.2.2 Mapplet
4.3 使用Shortcut
4.3.1 Local Shortcut
4.3.2 Global Shortcut
4.4 Session相关属性
4.4.1 Properties Tab相关属性
4.4.2 Config Object Tab相关属性
4.5 参数和变量
4.5.1 Mapping参数
4.5.2 Mapping变量
4.5.3 系统Session参数与变量
4.5.4 WorkflowWorklet变量
4.5.5 Local 变量(Local Variables)
第5章 PowerCenter高级应用
5.1 任务分区(Partition)
5.1.1 Database Partitioning
5.1.2 Hash Partitioning
5.1.3 Key Range Partitioning
5.1.4 Pass Through Partitioning
5.1.5 Round-robin Partitioning
5.2 内存管理
5.2.1 DTM内存
5.2.2 Transformation Cache
5.3 网格计算
5.3.1 Grid架构
5.3.2 Grid负载均衡
5.3.3 Grid与任务分区(Partition)
5.4 高可用性(HA)
5.4.1 PowerCenter自带的HA方案
5.4.2 依托第三方厂商的HA方案
5.4.3 两种HA方案对比
5.5 Web Service 应用
5.5.1 Web Service Hub
5.5.2 Web Service调度监控接口
5.5.3 Web Service Provider
5.5.4 Web Service Consumer
5.6 Pushdown Optimization
5.6.1 Pushdown优化是什么
5.6.2 Pushdown优化类型
5.7 版本控制及部署
5.7.1 Check InCheck Out
5.7.2 Team-Based开发的一些有用功能
5.7.3 Label与Deployment Group
5.7.4 复制对象从开发Repository到生产Repository
第6章 PowerCenter实战汇总
6.1 PowerCenter字符集
6.1.1 Oracle数据库
6.1.2 DB2字符集
6.1.3 AS400字符集
6.1.4 ODBC字符集
6.1.5 文本文件字符集
6.1.6 Repository Service字符集
6.1.7 Integration Service字符集
6.1.8 Data Movement Mode
6.2 UNIX ODBC配置
6.2.1 ODBC常规配置
6.2.2 My SQL社区版ODBC配置
6.3 使用Mapping动态分发文件
6.4 超越EDW,商品自动价格跟踪
6.5 pmcmd命令
6.6 pmrep命令
6.7 infasetup命令
6.8 Mapping Architect for Visio
6.9 MX View语句
6.10 PowerCenter与其他工具集成
第7章 性能调优
7.1 性能调优过
……
第8章 PowerCenter Troubleshooting
第9章 PowerCenter扩展能力
內容試閱
5.3网格计算

PowerCenter的网格计算(Grid)即PowerCenter的集群功能。集群功能最大的作用在于提升了PowerCenter的扩展能力,使ETL的开发人员开发的程序可以在不需要修改的情况下利用其扩展能力,提升处理能力。这种能力在大数据时代尤为重要。在大数据时代,各个组织都在推进业务数字化,提升组织洞察力,同时带来的是数据呈几何倍数的增长。同时,在大数据时代,人们利用数据的意愿在增强,包括使用内、外部数据的意愿,使用更多的历史数据的意愿等,这就是笔者经常向客户推荐PowerCenter的集群能力的原因。

同时,PowerCenter除了在数据仓库作为ETL,还经常被用作企业数据交换平台的核心组件,这样的应用场景对PowerCenter提出了更高的要求,比如:

减少非正常宕机时间。

减少由于系统维护产生的系统停机。

提升扩展能力。

提高服务器处理能力。

这些正是PowerCenter Grid所能提供的。接下来我们将对PowerCenter的Grid能力做一个简要的介绍。

5.3.1 Grid架构

谈到Grid首先要讨论Grid架构,这部分可以认为是第1章的延续,是对PowerCenter架构的进一步阐述。一图胜千言,首先奉献一幅PowerCenter Grid架构图,在此架构图的基础上介绍Grid的基础架构。

看到这张图相信已经有读者感到有些凌乱了,下面将此图展开来做一些详细的介绍。

(1)Domain:一组管理进程或者线程,用于管理和协调Domain中的所有服务。它是在安装N1(第一个节点)的过程中创建的,即第一次安装过程中选择“Create Domain”。

(2)Grid(网格):由若干个节点(N1、N2、N3,但不限于3个)组成。映射到安装配置过程,分为两个步骤:①创建Domain时添加节点,即安装N1时选择“Create Domain”,安装N2、N3时需要选择“Add into Existing Domain”,这时Grid尚未被创建,还需要执行第二步,即创建Grid;②在Admin Console上创建Grid,并且把N1、N2、N3作为它的成员。一个Domain可以包含多个Grid。

(3)IS(Integration Service):Integration Service可以创建在Grid或者Node上,只有创建在Grid上的Integration Service才支持集群,这是在创建Integration Service时选择的。创建在Grid上的Integration Service逻辑上是一个名字,但是这个Integration Service会在集群内的所有节点上各运行一个进程。同时,一个Grid上可以创建多个Integration Service。但是实际使用中这种情形并不多,只有特殊的需求才会这么做,比如特殊字符集或者Integration Service需要不同的环境变量时。

(4)Repository Service:主要是负责与Repository交互的协调工作,所以一般情况下压力都很小,因此没有Grid方式。但是当Integration Service采用Grid时,会建议Repository Service采用HA(高可用性)方式。这样可以保证当Repository Service的一个节点失效时,另一个节点能及时地接管此前的工作。P指Primary,即主节点。B指Backup,即备份节点。Nx和Ny可以是N1、N2、N3中的一个节点,也可以是其不相关的其他节点。

注释

(1)Gateway设置几个合适?一般来讲最好是所有的节点都设置为Gateway,这样就能保证,假如域中有n个节点,当n-1个节点失效时,还能够访问。

(2)共享存储问题。Grid需要共享存储支持,比如SAN、NAS、NFS等。这时一般是性能和价格的平衡。曾经我们认为NFS的性能比较差,但在网络状况极佳的情况下性能也非常好。但是使用NFS还是要考虑是否有单点失效的问题。

(3)哪些目录需要放到共享存储上?最简单的办法是把.serverinfa_shared下的所有目录都放到共享存储上。

(4)最少需要将哪些目录放到共享存储上?包括$PMStorageDir、$PMLookupFileDir、$PMSourceFileDir、$PMTargetFileDir和$PMCacheFileDir。

(5)N1、N2、N3机器上的用户名必须相同,如果是UNIXLinux操作系统,用户ID和组ID也必须相同。ID指的是使用UNIXLinux命令id显示的用户编号和组编号,如501等。

5.3.2 Grid负载均衡

PowerCenter负载均衡包括两种模式:Workflow on Grid和Session on Grid。

Workflow on Grid是将Grid中的所有节点当作资源池,以Tasks为单位进行任务分发,确保充分利用Grid的资源。这种模式是默认方式。

Session on Grid是将Grid中的所有节点当作资源池,以Session的Partition为单位进行任务分发。这部分将在5.3.3节进行详细阐述。

首先了解一下Grid支持的任务分发模式及其相关的概念。Grid提供了3种基本的任务分发方式,分别是Round-Robin、Metric-Based和Adaptive。

任务分发模式是Domain的属性,而不是Grid的属性,这一点需要特别留意。尤其是在Domain中存在多个Grid的情况下,一旦设置了Domain的任务分发模式,这个Domain中的所有Integration Service均将采用这一设置。

1.Round-Robin模式

在这种模式下,Load Balance分发器以Round-Robin模式进行任务分发。Load Balance管理器检查Maximum Processes(Maximum Process是Node的属性,在Admin Console中进行管理)阈值设置,如果增加当前任务不会超过它的阈值设置,这个任务将被分配给这个节点执行;如果增加此任务会导致超过某个阈值,Load Balance管理器将继续寻找可用的服务器,直到找到为止。

在Round-Robin模式下,Load Balance管理器不会Bypass任何任务。如果一个资源需求密集的任务被提交,而且所有任务优先级均相同的情况下,有可能出现所有的任务都需要等待这个资源密集任务被分配的情况(其实这种情况几乎不可能发生,因为在这种模式下,它申请的资源仅仅是进程数一个值,这样的需求很容易满足)。

这种模式一般用在节点资源比较平均的情况下。如果节点配置差别较大,就有可能将资源需求密集的任务分配给配置较差的服务器。

2.Metric-Based模式

在这种模式下,Load Balance分发器还是以Round-Robin模式进行任务分发。这时,Load Balance管理器会检查所有的资源阈值设置,同时检查Swap空间。如果要分发任务的资源需求超过评估节点的剩余资源,任务将不会被分配。Load Balance管理器会检查其他节点,直到发现有足够资源的节点,然后将此任务分配给此节点。

在这种模式下,PowerCenter会自动统计Task最近的3次运行所需的资源,从而决定该任务需要的资源。如果是首次运行,PowerCenter会使用默认值40MB memory和15% CPU。

在Metric-Based模式下,Load Balance管理器同样不会Bypass任何任务,如果一个资源密集的任务被提交,而且所有任务优先级均相同的情况下,有可能出现所有的任务都需要等待这个资源密集任务被分配的情况(这种情况的确会发生)。

3.Adaptive模式

在这种模式下,PowerCenter会评估所有Node的资源可用性。它会使用CPU空闲最多的Node,同时评估所有的阈值和Swap空间。如果分发该任务不会超过阈值设置,任务将被分发。

在这种模式下,PowerCenter会使用CPU Profile和任务运行的最近3次资源的统计值。如果Repository中尚无资源需求统计值,同样,它会使用默认资源需求40MB memory和15% CPU。

在Adaptive模式下,Load Balance管理器根据任务资源需求和任务优先级决定任务的分配。例如,大量有相同优先级的任务在分发队列中等待,并且无节点能满足一个资源需求密集型任务,这时,Load Balance管理器为资源需求密集型任务保留一个节点,而继续对队列中的其他任务进行分发,这样就可以避免其他任务等待资源需求密集任务的情况。

一个节点的资源设置包括如下项目,它们被设置在节点的属性中:

Maximum Processes。

Maximum CPU run Queue Leng

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.tw
Copyright (C) 2013 - 2024 (香港)大書城有限公司 All Rights Reserved.