原始数据

原始数据_6分词条

中科永联高级技术培训中心(www.itisedu.com

  原始数据(也被称为source data源数据或者atomic data原子数据)。通常认为数据与信息的区别在于:信息是经过加工处理之后的数据,而数据则是未经加工的数据。按照这种标准,数据也就是原始数据。

  并不是所有的原始数据都能成为信息,数据成为信息还要经过筛选、组织然后按照一定的格式进行整理才能成为信息。比如,超市里的POS机每天都会收集到大量的原始数据,但是,如果不经过处理,这些数据并不能产生什么信息。经过处理之后的超市数据可以显示出很多情况,比如客户喜欢购买什么东西,客户通常逛超市的时间以及他们购买物品的价格范围等等,这就是信息。这种信息可以用于预测技术,进而制定商业计划,最终赢得市场。

  经过处理之后,原始数据会生成一个数据库,数据库中的信息可以用来进一步的处理,经过分析之后,可以用于多种用途。

源数据抽取优化的问题

运行完session后,查看log,发现源数据读取的吞吐量仅为几百条左右,察看详细的session log发现,整个etl过程瓶颈在于源数据的读取,
如果在TOAD中直接运行数据源的sql查询发回所有记录只需4秒钟左右,这是怎么回事?可不可以优化?

SESSION LOG:
***** RUN INFO FOR TGT LOAD ORDER GROUP 【2】, SRC PIPELINE 【1】 *****
MASTER> PETL_24018 Thread 【READER_2_1_1】 created for the read stage of partition point 【SQ_BOM】 has completed: Total Run Time = 【195.091525】 secs, Total Idle Time = 【0.000000】 secs, Busy Percentage = 【100.000000】.

MASTER> PETL_24019 Thread 【TRANSF_2_1_1_1】 created for the transformation stage of partition point 【SQ_BOM】 has completed: Total Run Time = 【193.616721】 secs, Total Idle Time = 【180.455230】 secs, Busy Percentage = 【6.797704】.

MASTER> PETL_24022 Thread 【WRITER_2_1_1】 created for the write stage of partition point(s) 【BOM】 has completed: Total Run Time = 【135.793892】 secs, Total Idle Time = 【135.682443】 secs, Busy Percentage = 【0.082072】.

附图

上传图片 

互动百科的词条(含所附图片)系由网友上传,如果涉嫌侵权,请与客服联系,我们将按照法律之相关规定及时进行处理。如需转载,请注明来源于www.hudong.com

被引用: 本词条已被如下媒体引用 我来补充
互动百科联盟苏州ITPro中文网 阿里站长百科 做课件-百科中心
开放分类: 我来补充
冶金术语
建筑学
技术类型
数学术语
数据库
数据管理
术语
生物化学品
计算机术语
计算机编程

讨论区

更多>>

编辑者

共8人协作

相关词条

DIRECTX
sybase
DB2数据库
数据库营销
RDO
超市
分子
缓存
DBS
Data Base System
更多

Copyright © 2005-2009 hudong.com Ltd. All Rights Reserved. 互动在线 版权所有