各位老铁们,大家好,今天由我来为大家分享交易平台建设提速,以及怎样选择数据平台的建设方案的相关问题知识,希望对大家有所帮助。如果可以帮助到大家,还望关注收藏下本站,您的支持是我们最大的动力,谢谢大家了哈,下面我们开始吧!
本文目录
一、重磅方案公布 户籍、土地改革再提速!
1、近日,中共中央办公厅、国务院办公厅印发《建设高标准市场体系行动方案》(以下简称《方案》)。
2、《方案》从市场体系基础制度、推进要素资源高效配置、改善提升市场环境和质量、实施高水平市场开放、完善现代化市场监管机制等方面提出51项具体措施,涉及知识产权保护、市场准入、个人破产制度、反垄断与反不正当竞争等改革难点、盲点。
3、《方案》明确,通过五年左右的努力,基本建成统一开放、竞争有序、制度完备、治理完善的高标准市场体系。
4、随着《方案》的印发,其中有几项与房地产相关的内容值得一看。
5、根据《方案》,推动户籍准入年限同城化累计互认。除超大、特大城市外,在具备条件的都市圈或城市群探索实行户籍准入年限同城化累计互认,试行以经常居住地登记户口制度,有序引导人口落户。
6、这也意味着,户籍改革将再次提速。据国家发展改革委秘书长赵辰昕在1月19日召开的国家发展改革委1月份例行新闻发布会上透露的数据,城区常住人口300万以下的城市基本取消落户限制,超过1亿农业转移人口在城镇落户。早在2020年4月,国务院发布的《关于构建更加完善的要素市场化配置体制机制的意见》中就已经明确提出要深化户籍制度改革。
7、值得注意的是,《方案》中将超大、特大城市排除在外。根据国务院发布的城市规模划分标准,500万以上1000万以下的城市为特大城市;1000万以上的城市为超大城市。
8、另据住建部近期公布的《2019年城市建设统计年鉴》,目前城区常住人口超过1000万的超大城市有6个,分别是:上海、北京、重庆、广州、深圳和天津。东莞、武汉、成都、杭州、南京、郑州、西安、济南、沈阳和青岛这10个城市的城区人口处于500万到1000万之间,属于特大城市。
9、中房研协此前发布的一份报告曾预计,未来各城市人才引进和落户放宽政策仍然会加持,以完善城市的产业建设,以产业升级促进城市发展,最终推动经济增长。而城市城镇化率的提升,无论是城市面积的扩展,或是整体规模的扩大,还是人口增量带动作用,都会给房地产市场带来新的需求,而放开落户的政策,更多是人口的结构性调整,区域分化将更加明显。
10、此外,本次印发的《方案》在此前基础上进一步要求,完善全国统一的社会保险公共服务平台,推动社保转移接续。加快建设医疗保障信息系统,构建全国统一、多级互联的数据共享交换体系,促进跨地区、跨层级、跨部门业务协同办理。同时,还要提升人力资源服务质量。
11、实际上,宁波市在去年8月13日发布的《关于进一步放开宁波市落户条件的通知》中就已经提到,在上海、浙江、江苏、安徽“三省一市”缴纳的社会保险在申请落户时可累计纳入宁波市的缴纳年限,实现社会保险缴纳年限同城化累计。
12、易居研究院智库中心研究总监严跃进认为,都市圈、城市群内部的户籍、社保同城互认,更加完善了都市圈的概念,有助于人口的合理流动,对整个市场具有非常好的导向。比如将带来城市群内部某些城市高房价状况的缓解,因为高房价地区的人口可能会因为户籍在低房价地区可以得到承认,而流入到部分低房价地区。
13、另外,在推动经营性土地要素市场化配置方面,《方案》提出,开展土地指标跨区域交易试点。对城乡建设用地增减挂钩节余指标跨省域调剂政策实施评估,探索建立全国性的建设用地指标跨区域交易机制。改进完善跨省域补充耕地国家统筹机制,稳妥推进补充耕地国家统筹实施。在有条件的地方探索建立省域内跨区域补充耕地指标交易市场,完善交易规则和服务体系。
14、值得注意的是,《方案》再次明确“探索建立全国性的建设用地指标跨区域交易机”。而国务院办公厅于2018年3月印发的《城乡建设用地增减挂钩节余指标跨省域调剂管理办法》(下称《办法》)曾明确“三区三州”及其他深度贫困县增减挂钩节余指标由国家统筹跨省域调剂。《办法》将调出节余指标的地区限定在“三区三州”,即西藏、四省藏区、南疆四地州和四川凉山州、云南怒江州、甘肃临夏州。根据经济承担能力,确定北京、天津、上海、江苏、浙江、福建、山东等8个省(市)为主要帮扶省份。
15、通过这样的举措,发达地区获得了建设用地指标的同时,也为贫困地区的脱贫攻坚带来了资金。从公开数据看,从2018年到2020年底,这一政策为贫困地区提供了超过1800亿元的收益。
16、中房研协报告指出,探索建立全国性的建设用地指标跨区域交易机制”实际上即为“土地指标跨省交易机制”,更有效地促进了全国性土地资源的优化配置。短期来看,土地要素交易可以调整区域的供求关系,部分一二线城市可以增加土地供应缓解用地紧张的局面,三四线城市供应减少也会使供需更加平衡。长期而言,用地指标跨区域交易既可以进一步促进人口要素、资源要素向大城市集聚,促进各类生产要素合理流动和高效集聚。
17、此次《方案》还明确,深化土地管理制度改革。加强对土地利用计划的管理和跟踪评估,完善年度建设用地总量调控制度,健全重大项目用地保障机制,实施“增存挂钩”,城乡建设用地指标使用应更多由省级政府负责。推进委托用地审批权试点,建立健全省级政府用地审批工作评价机制,根据各省(自治区、直辖市)土地管理水平综合评价结果,动态调整试点省份。
18、完善建设用地市场体系方面,在符合国土空间规划和用途管制要求前提下,推动不同产业用地类型合理转换,探索增加混合产业用地供给。积极探索实施农村集体经营性建设用地入市制度。加快推进城乡统一的建设用地市场建设,统一交易规则和交易平台,完善城乡基准地价、标定地价的制定与发布制度,形成与市场价格挂钩的动态调整机制。
19、推动土地制度改革已经成为完善社会主义市场经济体制的重要任务和新的动力源。对此,中房研协分析认为,《方案》提出“深化土地管理制度改革”,有利于调动地方积极性,加快盘活存量土地,同时,土地供应审批权下放可促进市场更灵活发展。此外,《方案》提出“完善建设用地市场体系”则有利于进一步促进城乡协同发展,充分体现了最大程度的发挥市场决定价格的作用,促进要素价格市场化改革。
二、深圳先行示范区改革全面提速
1、今年是深圳经济特区成立40周年。在《关于支持深圳建设中国特色社会主义先行示范区的意见》(以下简称《意见》)发布一年后,10月11日,中共中央办公厅、国务院办公厅印发了《深圳建设中国特色社会主义先行示范区综合改革试点实施方案(2020-2025年)》(以下简称《方案》)。
2、根据目标,深圳今年会在要素市场化配置、营商环境优化等重要领域推出一批重大改革措施,制定实施首批综合授权事项清单;2022年形成一批可复制可推广的重大制度成果;2025年,重要领域和关键环节改革取得标志性成果,基本完成试点改革任务,为全国制度建设作出重要示范。
3、完善要素市场化配置体制机制是《方案》的重点内容之一,在土地管理制度、劳动力流动制度、技术成果转化制度、培育数据要素市场等领域提出了具体的探索方向。
4、为支持在土地管理制度上深化探索,《方案》明确将国务院可以授权的永久基本农田以外的农用地转为建设用地审批事项委托深圳市政府批准。
5、“过去深圳房价快速上涨,主要原因是人们相信深圳土地供应不足以满足庞大的人口住房需求,以此为基础进行投资。但实际上,深圳的土地供应不足,除了地理条件限制之外,有很大一部分原因是政策限制。大量的小产权房、农民房、城中村、厂房宿舍不具备上市流通的条件,无法形成有效的住房供应。这一历史问题在现行的制度框架下长期得不到解决。在每年50万人口流入的背景下,单单只依靠少量的商品房,供需矛盾日益激化。”贝壳研究院首席市场分析师许小乐告诉北京商报记者。
6、对此,政策赋予了农地转建设用地更大权限。易居研究院智库中心研究总监严跃进告诉北京商报记者:“政策类似规定使得后续深圳在获取增量属性的建设用地方面有更大的权限。此类做法实际上对于一些建设用地紧缺的城市是有启发意义的,类似规定能够减少土地征收征用的时限,促进相关土地市场的改革,最终增加土地供给的规模和提高效率。”
7、同时,《方案》支持在符合国土空间规划要求的前提下,推进二三产业混合用地。支持盘活利用存量工业用地,探索解决规划调整、土地供应、收益分配、历史遗留用地问题。探索利用存量建设用地进行开发建设的市场化机制,完善闲置土地使用权收回机制。
8、深化深汕特别合作区等区域农村土地制度改革。支持依托公共资源交易平台建设自然资源资产交易市场,完善一二级市场联动的土地市场服务监管体系。试点实行土地二级市场预告登记转让制度。
9、许小乐认为,《方案》优化增量土地与存量土地的循环利用。一些闲置、低效工业厂房仓库将能够转化为住宅用途,使工改租、商改租更为顺畅。另一方面,深化深汕特别合作区等区域农村土地制度改革,继续扩大城市圈的资源合作利用方式,从城市圈外部获得可用资源,将惠及周边城市。两者一起真正丰富深圳的土地供应。
10、除了土地管理制度,打造市场化、法治化、国际化的营商环境也是深圳经济特区综合改革试点的关键所在。
11、《方案》明确,完善行政管理体制和经济特区立法。按程序赋予深圳在干部和机构管理、统筹使用各类编制资源等方面更大自主权。探索完善行政争议多元解决机制,健全行政复议与行政诉讼衔接机制。
12、同时,支持深圳扩宽经济特区立法空间,在新兴领域加强立法探索,依法制定经济特区法规规章。
13、去年《意见》对于特区立法权的表述就曾引起关注。《意见》提出允许深圳根据授权对法律、行政法规、地方性法规作变通规定。深圳自1992年7月1日七届全国人大常委会正式授予“特区立法权”以来,充分发挥“特区立法权”优势,截至去年8月,共制定法规229件,现行有效法规168件,其中经济特区法规130件。
14、“深圳特区立法一直发挥着试验田的作用,完善经济特区立法,也是在落实此前《意见》精神,继续通过经济特区立法解决改革中遇到的突出问题,继续解决新领域落地与法律法规严重滞后之间的矛盾。”卓纬律师事务所合伙人孙志峰告诉北京商报记者。
15、深圳市委书记王伟中在近期接受媒体采访时也表示,深圳聚焦“法治城市示范”,用足用好深圳经济特区立法权。深圳出台全面禁止食用野生动物条例,加快制定知识产权保护条例、个人破产条例等一批全国首创法规。
16、知识产权也是营商环境的重要组成部分。2019年正式实施的《深圳经济特区知识产权保护条例》,极大地激发了企业、技术人员的积极性和创造性,也使深圳在最新的全国知识产权行政保护工作绩效考核中跃居第一。《方案》进一步提出,要将深圳打造为保护知识产权标杆城市。
17、具体来看,开展新型知识产权法律保护试点,完善互联网信息等数字知识产权财产权益保护制度,探索建立健全证据披露、证据妨碍排除和优势证据规则,建立知识产权侵权惩罚性赔偿制度。探索在部分知识产权案件中实行举证责任转移制度。实施知识产权领域以信用为基础的分级分类监管。
18、“首先,深圳作为改革开放的桥头堡,经过长期发展已经成为技术创新、科技融合的前沿阵地,已经具备了知识产权标杆城市的外部经济环境和科技环境优势;第二,深圳营商环境在国内首屈一指,司法执法环境也在全国领先,也已经具备了知识产权的保护和保障优势。”孙志峰告诉北京商报记者。
19、此外,深圳特区属性决定了其在法律制度制定和适用具备了其他区域不具备的天然优势,具有制度层面上可不断试错不断改进的制度优势;其毗邻香港,近年来也允许特定案件特定区域香港法律适用,因此在融合英美法系和内地法系各自优点方面具有地域上融合优势。
20、孙志峰认为,最为值得关注的是以信用为基础的分级分类监管。“如果这一体系在深圳取得良好效果,无疑将对我国知识产权保护和社会信用体系建立完善带来相当价值的影响。”
三、怎样选择数据平台的建设方案
业务跑的好好的,各系统稳定运行,为何还要搭建企业的数据平台?
这样的问题,心里想想就可以了,不要大声问出来。我来直接回答一下,公司一般在什么情况下需要搭建数据平台,对各种数据进行重新架构。
1、业务系统过多,彼此的数据没有打通。这种情况下,涉及到数据分析就麻烦了,可能需要分析人员从多个系统中提取数据,再进行数据整合,之后才能分析。一次两次可以忍,天天干这个能忍吗?人为整合出错率高怎么控制?分析不及时效率低要不要处理?
2、业务系统压力大,而不巧,数据分析又是一项比较费资源的任务。那么自然会想到的,通过将数据抽取出来,独立服务器来处理数据查询、分析任务,来释放业务系统的压力。
3、性能问题,公司可以越做越大,同样的数据也会越来越大。可能是历史数据的积累,也可能是新数据内容的加入,当原始数据平台不能承受更大数据量的处理时,或者是效率已经十分低下时,重新构建一个大数据处理平台就是必须的了。
上面我列出了三种情况,但他们并非独立的,往往是其中两种甚至三种情况同时出现。一个数据平台的出现,不仅可以承担数据分析的压力,同样可以对业务数据进行整合,也会不同程度的提高数据处理的性能,基于数据平台实现更丰富的功能需求。
二、数据平台的建设有哪些方案可以选择
下文中的优缺点仅从企业选型的角度,并非方案本身的技术角度。
如果一句话回答的话,那就是:太多了(这是一句废话,我承认),但确实有非常多的方案可供选择,我懂的少,肯定是无法一一介绍,所以就分成了下面几类,相信也一定程度上覆盖了大部分企业的需求了。
概念不说了,既然是做数据这一行的,相信你比我还要清楚,不清楚的可以百度。它的重点在于数据整合,同时也是对业务逻辑的一个梳理。虽然它也可以打包成ssas那种cube一类的东西来提升数据的读取性能,但是数据仓库的作用,更多的是为了解决公司的业务问题,而不仅仅是性能问题。这一点后面会详细介绍。
关于这一方案的优缺点,直接说重点:
方案成熟,关于数据仓库的架构,不管是Inmon架构还是Kimball架构,都有着非常广泛的应用,而且相信能将这两种架构落地的人也不少。
实施简单,涉及的技术层面主要是仓库的建模以及etl的处理,很多软件公司具备数据仓库的实施能力,实施难度的大小更多的取决于业务逻辑的复杂程度,而并非技术上的实现。
灵活性强,说这句话要有对应场景的,数据仓库的建设是透明的,如果需要,可以对仓库的模型、etl逻辑进行修改,来满足变更的需求(当然,最好设计之初考虑的周全一点)。同时对于上层的分析而言,通过sql或者mdx对仓库数据的分析处理具备极强的灵活性。
“实施周期长”,注意,我加了引号,对应下面的敏捷型数据集市,而且这点是相对的,实施周期的长与短要取决于业务逻辑的复杂性,时间是花在了业务逻辑的梳理,并非技术上的瓶颈。关于这点,后面会详细介绍。
数据的处理能力有限,这个有限,也是相对的,海量数据的处理它肯定不行,非关系型数据的处理它也不行,但是TB以下级别的数据,还是搞得定的(也取决于所采用的数据库系统),这个量级的数据,而相当一部分企业的数据,还是很难超过这个级别的。
底层的数据产品与分析层绑定,使得应用层可以直接对底层数据产品中的数据进行拖拽式分析。这一类产品的出现,其初衷是为了对业务数据进行简单的、快速的整合,实现敏捷建模,并且大幅提升数据的处理速度。目前来看,这些产品都达到了以上的目的。但它的优缺点也比较明显。
部署简单,敏捷开发,这也是这类产品最大的优点,和数据仓库相比,实施周期要短的多。实际上它也没什么严格的实施的概念,因为这类产品只是针对需要分析的数据,进行局部的关联,只考虑眼前要解决的问题就够了,迭代的能力更强些。
与上层的分析工具结合较好,上层的分析工具接入这类数据产品后,可直接实现数据的图形化展示和olap分析。对数据处理性能的提高,这类产品都对数据的分析性能做了处理,虽然方式不尽相同,有内存映射文件存储的,也有分布式架构、列数据存储的。但无疑都一定程度上提高了数据的处理性能。
无法处理复杂的业务逻辑,这只是一个工具,它无法解决业务问题。这类工具中自带简单的etl功能,实现简单的数据处理和整合,而如果考虑到历史数据,考虑到整体的数据之间的逻辑和关系,它一定是解决不了的。一个简单的例子,当某个表中,有两个字段,一个要保留历史数据,一个要更新历史数据,要怎样实现自动处理。有一个观念是需要清楚的,不能指望一款工具来解决业务问题。这种数据产品仅仅是对当前的业务数据进行简单的整合,第一,数据是局部的,第二,时间是当前的(其涵带的增量更新或者全量更新,是无法应对复杂的逻辑的,相信熟悉etl的人都知道这个过程有多复杂)。当然,对于一些公司来说,可能需求只是对当前业务数据进行整合分析,那么这类产品就够了。(说实话,很多公司真的是懒得更长远的考虑,有一天没一天的,谁说的准呢)
l灵活性低,这个也是没法避免的,越是操作简单的工具,他的灵活性肯定受限,因为封装住了,产品是不透明的,常规的需求用起来非常方便,但是遇到复杂的,发现对他内部不了解,你也没法修改,只有蛋疼的份。
从我的角度看,它是很难成为公司的数据中心的。
3、 MPP(大规模并行处理)架构的数据产品,以最近开源的greenplum为例
传统的主机计算模式在海量数据面前,显得弱鸡。造价非常昂贵,同时技术上也无法满足高性能的计算,smp架构难于扩展,在独立主机的cpu计算和io吞吐上,都没办法满足海量数据计算的需求。分布式存储和分布式计算正是解决这一问题的关键,不管是后面的MapReduce计算框架还是MPP计算框架,都是在这一背景下产生的。
greenplum的数据库引擎是基于postgresql的,并且通过Interconnnect神器实现了对同一个集群中多个Postgresql实例的高效协同和并行计算。
同时,基于greenplum的数据平台建设,可以实现两个层面的处理,显而易见的一个是对数据处理性能的处理,greenplum的百科中宣称支持50PB级海量数据的处理,考虑它有吹牛的成分,对目前greenplum实际应用情况的了解,100tb级左右的数据,是非常轻松的。另一个是数据仓库可以搭建在greenplum中,这一层面上也是对业务逻辑的梳理,对公司业务数据的整合。
海量数据的支持,大量成熟的应用案例,所以我想这一点是不用怀疑的。
扩展性,据说可线性扩展到10000个节点,并且每增加一个节点,查询、加载性能都成线性增长。
易用性,不需要复杂的调优需求,并行处理由系统自动完成。依然是sql作为交语言,简单、灵活、强大。
高级功能,greenplum还研发了很多高级数据分析管理功能,例如人气很高的外部表,还有Primary/Mirror镜像保护机制,行/列混合存储等。
稳定性,greenplum原本作为一个纯商业数据产品,具有很长的历史,其稳定性相比于其他产品以及敏捷性数据集市是更加有保障的。 greenplum有非常多的应用案例,纳斯达克、纽约证券交易所、平安银行、建设银行、华为等都建立了基于greenplum的数据分析平台。其稳定性是可以从侧面验证的,在15年9月份开源后,各大互联网公司也是一片欢腾,现在也接触了几家在使用greenplum的客户,对其评价都很高。
本身来说,它的定位在olap领域,不擅长oltp交易系统。当然我们搭建公司的数据中心也不会是用来做交易系统的。
成本,两个方面的考虑,一是硬件成本,greenplum有其推荐的硬件规格,对内存、网卡都有要求。当然,在硬件选型上,需要达到一个平衡,要在性能、容量、成本等多方面考虑,毕竟不能一味的追求性能,把采购部门吓到吧。另一个是实施成本,这里主要是人了,基本的是greenplum的安装配置,再到greenplum中数据仓库的构建,都需要人和时间。(但是必须要说的是,人家软件都开源了,也省下了一笔钱啊)
技术门槛,这里是相对于上一个敏捷型数据集市的,greenplum的门槛肯定是要高一点了。
关于hadoop,已经火的要爆炸了,greenplum的开源跟它也是脱不了关系的。有着高可靠性、高扩展性、高效性、高容错性的口碑。在互联网领域有非常广泛的运用,雅虎、facebook、百度、淘宝等等等等。hadoop生态体系非常庞大,各公司基于hadoop所实现的也不仅限于数据分析,也包括机器学习、数据挖掘、实时系统等。
当企业数据规模达到一定的量级,我想hadoop是各大企业的首选方案,到达这样一个层次的时候,我想企业所要解决的也不仅是性能问题,还会包括时效问题、更复杂的分析挖掘功能的实现等。非常典型的实时计算体系也与hadoop这一生态体系有着紧密的联系。
近些年来hadoop的易用性也有了很大的提升,sql-on-hadoop技术大量涌现,包括hive、impala、spark-sql等。尽管其处理方式不同,但普遍相比于原始基于文件的Mapreduce,不管是性能还是易用性,都是有所提高的。也因此对mpp产品的市场产生了压力。
对于企业构建数据平台来说,hadoop的优势与劣势非常明显:它的大数据的处理能力、高可靠性、高容错性、开源性以及低成本(为什么说低成本,要处理同样规模的数据,换一个其他方案试试呢)。缺点也就是他的体系的复杂,技术门槛较高(能搞定hadoop的公司规模一般都不小了)。
关于hadoop的优缺点对于公司的数据平台选型来说,影响已经不大了。需要上hadoop的时候,也没什么其它的方案好选择(要么太贵,要么不行),没到达这个数据量的时候,也没人愿意碰这东西。总之,不要为了大数据而大数据。
三、方案很多,企业要怎样选择呢?
环境太复杂,但是我想至少要从下面这几个方面去考虑吧。
什么样的目的?就是文中开始部分的三种情况呀(不好意思,自大了,肯定有其它情况,欢迎向“jiago王”补充),或者是其中几个的组合。
做事方法都一样,哪怕是中午出去吃饭,也是要在心里有个目的,这顿饭是为了吃饱,还是吃爽,或者为了拍别人的马屁,然后才好选择去吃什么。
当然,要明确数据平台的建设目的,哪里是那么容易的,初衷与讨论后确认的目标或许是不一致的。
公司要搭建一个数据平台的初衷可能很简单,只是为了减轻业务系统的压力,将数据拉出来后再分析,如果目的真的就这么单纯,还真的没有必要大动干戈了。如果是独立系统的话,直接将业务系统的数据库复制出来一份就好了;如果是多系统,选类似finecube那种型敏捷型的商业数据产品也够了,快速建模,直接用finebi或者finereport接入进去就能实现数据的可视化与olap分析。
但是,既然已经决定要将数据平台独立出来了,就不再多考虑一点吗?多个系统的数据,不趁机梳理整合一下?当前只有分析业务数据的需求,以后会不会考虑到历史数据呢?这种敏捷的方案能够支撑明年、后年的需求吗?
任何公司要搭建数据平台,都不是一件小事,多花一两个月实施你可能觉得累,多花一周两周的时间,认真的思考一下总可以的吧。雷军不是说过这样一句话:不能以战术上的勤奋,掩盖战略上的懒惰。
根据公司的数据规模选择合适的方案,这里说多了都是废话。
包括时间成本和金钱,不必多说。但是这里有一个问题想提一下,发现很多公司,要么不上数据平台,一旦有了这样的计划,就恨不得马上把平台搭出来用起来,时间成本不肯花,这样的情况很容易考虑欠缺,也容易被数据实施方忽悠。
关于方案选择的建议,举以下3 1个场景
要实现对业务数据的快速提取和分析,多个业务系统,没有达到海量数据,不考虑历史数据,不需要依照业务逻辑对数据进行系统的梳理,这种情况下,可以考虑敏捷型的bi工具自带的数据底层。
简单来讲,这种场景仅仅是在技术层面上,完成对数据的整合与提速,并没有从业务层面上对数据进行建模。他可以满足一定的分析需求,但是不能成为公司的数据中心。
要搭建公司级的数据中心,打通各系统之间的数据。非常明显的,需要搭建一个数据仓库。这时就需要进一步考虑公司数据的量级了,如果是小数据量,TB级以下,那么在传统数据库中建这样一个数据仓库就可以了,如果数据量达到几十上百TB,或者可见的在未来几年内数据会达到这样一个规模,可以将仓库搭在 greenplum中。
这种场景应该是适用于大部分公司,对于大部分企业来说,数据量都不会PB级别,更多的是在TB级以下。
公司数据爆发式增长,原有的数据平台无法承担海量数据的处理,那么就建议考虑hadoop这种大数据平台了。它一定是公司的数据中心,这样一个角色,仓库是少不了的,可以将原来的仓库直接搬到hive中去。这种数据量比较大的情况要怎样呈现,因为hive的性能较差,它的即席查询可以接 impala,也可以接greenplum,因为impala的并发量不是那么高,而greenplum正好有它的外部表(也就是greenplum创建一张表,表的特性叫做外部表,读取的内容是hadoop的hive里的),正好和hadoop完美的融合(当然也可以不用外部表)。
这个是后面补充的,当公司原本有一个数据仓库,但历史数据了堆积过多,分析性能下降,要怎么办?两个方案可以考虑,比较长远的,可以将仓库以及数据迁移到greenplum中,形成一个新的数据平台,一个独立的数据平台,可以产生更多的可能性;比较快速的,是可以将类似finecube那种敏捷型数据产品接入原来的仓库,这样来提升数据的处理性能,满足分析的要求。
四、关于方案选型时可能会出现的误区
(忽略业务的复杂性,要用工具来解决或者是绕开业务的逻辑。)
这个是我最近遇到过的,客户要做报表平台,有三个业务系统的数据需要整合。但是急于变现,不想搭建传统的数据仓库,所以从敏捷型的bi工具中选型。工具厂商对自己数据产品的描述,一般着重于他的快速实施、性能的优化、以及自带的基本etl功能。这样容易给客户造成误区,就是通过这一产品可快速搭建出一个公司级别的数据中心,满足于顶层对数据的需求。
然而在后期突然意识到,工具所解决的,仅仅是在技术层面上简化了工具的使用的复杂性,把etl和数据集市封装在一起,并且提高了数据的性能,但是并没有从业务层面上实现数据的建模,很多细节问题无法处理。
虽然敏捷开发非常诱人,如果业务系统简单,或者只需要分析当前状态的业务数据,不需要公司级的数据中心,那么确实是一个非常好的方案。然而这些问题还没有考虑清楚,对敏捷产品有了过高的期望,后面是会遇到些麻烦的。
除此之外,可能还会有为了大数据而大数据的,但是这些我在实际的工作中还没有遇到。
最后总结一下,企业选择数据平台的方案,有着不同的原因,要合理的选型,既要充分的考虑搭建数据平台的目的,也要对各种方案有着充分的认识。
仅从个人的角度,对于数据层面来说,还是倾向于一些灵活性很强的方案的,因为数据中心对于公司来说太重要了,我更希望它是透明的,是可以被自己完全掌控的,这样才有能力实现对数据中心更加充分的利用。因为,我不知道未来需要它去承担一个什么样的角色。
如果你还想了解更多这方面的信息,记得收藏关注本站。
声明:本文内容来自互联网不代表本站观点,转载请注明出处:https://www.41639.com/15_332674.html
