掌握这些核心,学习大数据分析更加得心应手 - 中国数据分析行业网
  • 什么是亚博电竞客户端下载
  • 亚博电竞客户端下载师事务所简介
  • 亚博电竞客户端下载师简介
  • 大亚博电竞客户端下载平台(Datahoop)简介
  • 中国亚博电竞客户端下载行业自律公约
  • 2019年全球医药市场亚博电竞客户端下载
  • 通过这份亚博电竞客户端下载结果,教师资格证将越来越难考
  • 九大最适合实时亚博电竞客户端下载的应用领域
  • 亚博电竞客户端下载清明小长假出行特点
  • 技术热点

  • 亚博体育app彩票挖掘与机器学习:有什么区别?
  • Excel中的条件格式这么用,亚博电竞客户端下载更显专业化
  • Python在亚博电竞客户端下载中的重要性
  • 掌握这些核心,学习大亚博电竞客户端下载更加得心应手
  • Datahoop大亚博电竞客户端下载平台

    Datahoop,新一代企业亚博电竞客户端下载平台。是中国商业联合会亚博电竞客户端下载专业委员会主导下,集合了业内高级亚博电竞客户端下载专家,建立的多功能分析平台。目前正在进行小范围的公测...

    解决方案

  • “全方位育人”你不能缺席!百名亚博电竞客户端下载讲师公益培养计划正式启动
  • 关于给CPDA个人亚博yabo官方提供2019年8月免费微课学习的通知
  • 关于陕西诚合广信亚博电竞客户端下载师事务所有限公司备案及入会申请的批复
  • 关于组织参加“第十九届亚太零售商大会暨国际消费品博览会”的通知
  • 亚博yabo官方服务

    入会申请快速指南

  • 1.请您先阅读入会须知[入会须知]
  • 2.下载入会申请表 [团体申请] [个人申请]
  • 3.通过协会邮箱提交申请表
  • Email : xiehui@chinacpda.org
  • 4.如果您还有其它疑问,请联系
  • 协会亚博yabo官方处 010-59000056转652
  • 5.查看更多亚博yabo官方入会相关信息:
  • 了解入会详情
  • 李昆仑

  • 犀数科技,首席亚博体育app彩票官——孙雪

  • 沈志勇

  • 江青

  • 周庭锐

  • 地            址:北京市朝阳区朝外大街乙6号朝外SOHO,C座9层
  • 邮            编:100020
  • 总            机:(010)5900-0991/0339/0223/0056
  • 人事 行政处:010-59000991转606
  • 运  营 中  心:010-59000991
  • 商  务 合  作:010-59000339转630、13001995337
  • 会   员    处 :010-59000056转652
  •         Email :xiehui@chinacpda.org
  • 乘   地   铁:东大桥站
  • 乘   公   交:关东店站
  • 当前位置 > 首页 > 技术热点 > 掌握这些核心,学习大亚博电竞客户端下载更加得心应手

    掌握这些核心,学习大亚博电竞客户端下载更加得心应手

    来源:中国亚博电竞客户端下载行业网 | 时间:2019-08-06 | 作者:亚博体育app彩票委

    目前,大亚博体育app彩票领域每年都会涌现出大量新的技术,成为大亚博体育app彩票获取、存储、处理分析或可视化的有效手段。大亚博体育app彩票技术能够将大规模亚博体育app彩票中隐藏的信息和知识挖掘出来,为人类社会经济活动提供依据,提高各个领域的运行效率,甚至整个社会经济的集约化程度。

     

     

     

    01 大亚博体育app彩票生命周期

     

     

    1展示了一个典型的大亚博体育app彩票技术栈。底层是基础设施,涵盖计算资源、内存与存储和网络互联,具体表现为计算节点、集群、机柜和亚博体育app彩票中心。在此之上是亚博体育app彩票存储和管理,包括文件系统、亚博体育app彩票库和类似YARN的资源管理系统。

     

     

    然后是计算处理层,如hadoopMapReduceSpark,以及在此之上的各种不同计算范式,如批处理、流处理和图计算等,包括衍生出编程模型的计算模型,如BSPGAS 等。亚博电竞客户端下载和可视化基于计算处理层。分析包括简单的查询分析、流分析以及更复杂的分析(如机器学习、图计算等)。查询分析多基于表结构和关系函数,流分析基于亚博体育app彩票、事件流以及简单的统计分析,而复杂分析则基于更复杂的亚博体育app彩票结构与方法,如图、矩阵、迭代计算和线性代数。

     

     

    一般意义的可视化是对分析结果的展示。但是通过交互式可视化,还可以探索性地提问,使分析获得新的线索,形成迭代的分析和可视化。基于大规模亚博体育app彩票的实时交互可视化分析以及在这个过程中引入自动化的因素是目前研究的热点。

     

     

    2个领域垂直打通了上述的各层,需要整体、协同地看待。一是编程和管理工具,方向是机器通过学习实现自动最优化、尽量无需编程、无需复杂的配置。另一个领域是亚博体育app彩票安全,也是贯穿整个技术栈。除了这两个领域垂直打通各层,还有一些技术方向是跨了多层的,例如内存计算事实上覆盖了整个技术栈。

     

     

    02 大亚博体育app彩票技术生态

     

    大亚博体育app彩票的基本处理流程与传统亚博体育app彩票处理流程并无太大差异,主要区别在于:由于大亚博体育app彩票要处理大量、非结构化的亚博体育app彩票,所以在各处理环节中都可以采用并行处理。目前,HadoopMapReduceSpark等分布式处理方式已经成为大亚博体育app彩票处理各环节的通用处理方法。

     

     

    Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量亚博体育app彩票的应用程序。Hadoop 是一个亚博体育app彩票管理系统,作为亚博电竞客户端下载的核心,汇集了结构化和非结构化的亚博体育app彩票,这些亚博体育app彩票分布在传统的企业亚博体育app彩票栈的每一层。

     

     

    Hadoop也是一个大规模并行处理框架,拥有超级计算能力,定位于推动企业级应用的执行。Hadoop又是一个开源社区,主要为解决大亚博体育app彩票的问题提供工具和软件。虽然Hadoop提供了很多功能,但仍然应该把它归类为多个组件组成的Hadoop生态圈,这些组件包括亚博体育app彩票存储、亚博体育app彩票集成、亚博体育app彩票处理和其他进行亚博电竞客户端下载的专门工具。

     

     

    2 展示了Hadoop 的生态系统,主要由HDFSMapReduceHbaseZookeeperOoziePigHive等核心组件构成,另外还包括SqoopFlume等框架,用来与其他企业融合。同时,Hadoop 生态系统也在不断增长,新增MahoutAmbariWhirrBigTop 等内容,以提供更新功能。

     

     

    低成本、高可靠、高扩展、高有效、高容错等特性让Hadoop成为最流行的大亚博电竞客户端下载系统,然而其赖以生存的HDFS MapReduce 组件却让其一度陷入困境——批处理的工作方式让其只适用于离线亚博体育app彩票处理,在要求实时性的场景下毫无用武之地。因此,各种基于Hadoop的工具应运而生。为了减少管理成本,提升资源的利用率,有当下众多的资源统一管理调度系统,例如Twitter Apache MesosApache YARNGoogle Borg、腾讯搜搜的TorcaFacebook Corona(开源)等。

     

     

    Apache MesosApache孵化器中的一个开源项目,使用ZooKeeper实现容错复制,使用Linux Containers 来隔离任务,支持多种资源计划分配(内存和CPU)。提供高效、跨分布式应用程序和框架的资源隔离和共享,支持HadoopMPIHypertableSpark 等。YARN 又被称为MapReduce 2.0,借鉴MesosYARN 提出了资源隔离解决方案Container,提供Java 虚拟机内存的隔离。对比MapReduce 1.0,开发人员使用ResourceManagerApplicationMasterNodeManager代替了原框架中核心的JobTracker TaskTracker。在YARN平台上可以运行多个计算框架,如MRTezStormSpark等。

     

     

    基于业务对实时的需求,有支持在线处理的StormCloudar Impala、支持迭代计算的Spark 及流处理框架S4Storm是一个分布式的、容错的实时计算系统,由BackType开发,后被Twitter捕获。Storm属于流处理平台,多用于实时计算并更新亚博体育app彩票库。Storm也可被用于连续计算”(Continuous Computation),对亚博体育app彩票流做连续查询,在计算时就将结果以流的形式输出给用户。它还可被用于分布式RPC”,以并行的方式运行昂贵的运算。Cloudera Impala是由Cloudera开发,一个开源的Massively Parallel Processing(MPP)查询引擎。

     

     

    Hive 相同的元亚博体育app彩票、SQL语法、ODBC 驱动程序和用户接口(HueBeeswax),可以直接在HDFS HBase 上提供快速、交互式SQL 查询。Impala是在Dremel的启发下开发的,不再使用缓慢的Hive+MapReduce 批处理,而是通过与商用并行关系亚博体育app彩票库中类似的分布式查询引擎(Query PlannerQuery Coordinator Query Exec Engine3部分组成),可以直接从HDFS 或者HBase 中用SELECTJOIN 和统计函数查询亚博体育app彩票,从而大大降低了延迟。

     

     

    Hadoop社区正努力扩展现有的计算模式框架和平台,以便解决现有版本在计算性能、计算模式、系统构架和处理能力上的诸多不足,这正是Hadoop2.0 版本“ YARN”的努力目标。各种计算模式还可以与内存计算模式混合,实现高实时性的大亚博体育app彩票查询和计算分析。混合计算模式之集大成者当属UC Berkeley AMP Lab 开发的Spark生态系统,如图3所示。Spark 是开源的类Hadoop MapReduce的通用的亚博电竞客户端下载集群计算框架,用于构建大规模、低延时的亚博电竞客户端下载应用,建立于HDFS之上。

     

     

    Spark提供强大的内存计算引擎,几乎涵盖了所有典型的大亚博体育app彩票计算模式,包括迭代计算、批处理计算、内存计算、流式计算(Spark Streaming)、亚博体育app彩票查询分析计算(Shark)以及图计算(GraphX)Spark 使用Scala 作为应用框架,采用基于内存的分布式亚博体育app彩票集,优化了迭代式的工作负载以及交互式查询。与Hadoop 不同的是,Spark Scala 紧密集成,Scala 像管理本地collective 对象那样管理分布式亚博体育app彩票集。Spark支持分布式亚博体育app彩票集上的迭代式任务,实际上可以在Hadoop文件系统上与Hadoop一起运行(通过YARNMesos等实现)

     

     

    另外,基于性能、兼容性、亚博体育app彩票类型的研究,还有SharkPhoenixApache AccumuloApache DrillApache GiraphApache HamaApache TezApache Ambari 等其他开源解决方案。预计未来相当长一段时间内,主流的Hadoop平台改进后将与各种新的计算模式和系统共存,并相互融合,形成新一代的大亚博体育app彩票处理系统和平台。

     

     

    03 大亚博体育app彩票采集与预处理

     

     

    在大亚博体育app彩票的生命周期中,亚博体育app彩票采集处于第一个环节。根据MapReduce产生亚博体育app彩票的应用系统分类,大亚博体育app彩票的采集主要有4种来源:管理信息系统、Web信息系统、物理信息系统、科学实验系统。对于不同的亚博体育app彩票集,可能存在不同的结构和模式,如文件、XML 树、关系表等,表现为亚博体育app彩票的异构性。对多个异构的亚博体育app彩票集,需要做进一步集成处理或整合处理,将来自不同亚博体育app彩票集的亚博体育app彩票收集、整理、清洗、转换后,生成到一个新的亚博体育app彩票集,为后续查询和分析处理提供统一的亚博体育app彩票视图。

     

     

    针对管理信息系统中异构亚博体育app彩票库集成技术、Web 信息系统中的实体识别技术和DeepWeb集成技术、传感器网络亚博体育app彩票融合技术已经有很多研究工作,取得了较大的进展,已经推出了多种亚博体育app彩票清洗和质量控制工具,例如,美国SAS公司的Data Flux、美国IBM 公司的Data Stage、美国Informatica 公司的Informatica Power Center

     

     

    04 大亚博体育app彩票存储与管理

     

    传统的亚博体育app彩票存储和管理以结构化亚博体育app彩票为主,因此关系亚博体育app彩票库系统(RDBMS)可以一统天下满足各类应用需求。大亚博体育app彩票往往是半结构化和非结构化亚博体育app彩票为主,结构化亚博体育app彩票为辅,而且各种大亚博体育app彩票应用通常是对不同类型的亚博体育app彩票内容检索、交叉比对、深度挖掘与综合分析。面对这类应用需求,传统亚博体育app彩票库无论在技术上还是功能上都难以为继。

     

     

    因此,近几年出现了oldSQLNoSQL NewSQL 并存的局面。总体上,按亚博体育app彩票类型的不同,大亚博体育app彩票的存储和管理采用不同的技术路线,大致可以分为3类。第1类主要面对的是大规模的结构化亚博体育app彩票。针对这类大亚博体育app彩票,通常采用新型亚博体育app彩票库集群。

     

     

    它们通过列存储或行列混合存储以及粗粒度索引等技术,结合MPP(Massive Parallel Processing)架构高效的分布式计算模式,实现对PB 量级亚博体育app彩票的存储和管理。这类集群具有高性能和高扩展性特点,在企业分析类应用领域已获得广泛应用;2类主要面对的是半结构化和非结构化亚博体育app彩票。

     

     

    应对这类应用场景,基于Hadoop开源体系的系统平台更为擅长。它们通过对Hadoop生态体系的技术扩展和封装,实现对半结构化和非结构化亚博体育app彩票的存储和管理;3类面对的是结构化和非结构化混合的大亚博体育app彩票,因此采用MPP 并行亚博体育app彩票库集群与Hadoop 集群的混合来实现对百PB 量级、EB量级亚博体育app彩票的存储和管理。

     

     

    一方面,用MPP 来管理计算高质量的结构化亚博体育app彩票,提供强大的SQLOLTP型服务;另一方面,用Hadoop实现对半结构化和非结构化亚博体育app彩票的处理,以支持诸如内容检索、深度挖掘与综合分析等新型应用。这类混合模式将是大亚博体育app彩票存储和管理未来发展的趋势。

     

     

    05 大亚博体育app彩票计算模式与系统

     

    计算模式的出现有力推动了大亚博体育app彩票技术和应用的发展,使其成为目前大亚博体育app彩票处理最为成功、最广为接受使用的主流大亚博体育app彩票计算模式。然而,现实世界中的大亚博体育app彩票处理问题复杂多样,难以有一种单一的计算模式能涵盖所有不同的大亚博体育app彩票计算需求。

     

     

    研究和实际应用中发现,由于MapReduce主要适合于进行大亚博体育app彩票线下批处理,在面向低延迟和具有复杂亚博体育app彩票关系和复杂计算的大亚博体育app彩票问题时有很大的不适应性。因此,近几年来学术界和业界在不断研究并推出多种不同的大亚博体育app彩票计算模式。

     

     

    所谓大亚博体育app彩票计算模式,即根据大亚博体育app彩票的不同亚博体育app彩票特征和计算特征,从多样性的大亚博体育app彩票计算问题和需求中提炼并建立的各种高层抽象(abstraction)或模型(model)。例如,MapReduce 是一个并行计算抽象,加州大学伯克利分校著名的Spark系统中的分布内存抽象RDD”CMU 著名的图计算系统GraphLab 中的图并行抽象”(Graph Parallel Abstraction)等。

     

     

    传统的并行计算方法,主要从体系结构和编程语言的层面定义了一些较为底层的并行计算抽象和模型,但由于大亚博体育app彩票处理问题具有很多高层的亚博体育app彩票特征和计算特征,因此大亚博体育app彩票处理需要更多地结合这些高层特征考虑更为高层的计算模式。

     

     

    根据大亚博体育app彩票处理多样性的需求和以上不同的特征维度,目前出现了多种典型和重要的大亚博体育app彩票计算模式。与这些计算模式相适应,出现了很多对应的大亚博体育app彩票计算系统和工具。由于单纯描述计算模式比较抽象和空洞,因此在描述不同计算模式时,将同时给出相应的典型计算系统和工具,如表1所示,这将有助于对计算模式的理解以及对技术发展现状的把握,并进一步有利于在实际大亚博体育app彩票处理应用中对合适的计算技术和系统工具的选择使用。

     

     

    06 大亚博电竞客户端下载与可视化

     

    在大亚博体育app彩票时代,人们迫切希望在由普通机器组成的大规模集群上实现高性能的以机器学习算法为核心的亚博电竞客户端下载,为实际业务提供服务和指导,进而实现亚博体育app彩票的最终变现。与传统的在线联机分析处理OLAP不同,对大亚博体育app彩票的深度分析主要基于大规模的机器学习技术,一般而言,机器学习模型的训练过程可以归结为最优化定义于大规模训练亚博体育app彩票上的目标函数并且通过一个循环迭代的算法实现,如图4所示。因而与传统的OLAP相比较,基于机器学习的大亚博电竞客户端下载具有自己独特的特点。

     

     

    (1)迭代性:由于用于优化问题通常没有闭式解,因而对模型参数确定并非一次能够完成,需要循环迭代多次逐步逼近最优值点。

     

    (2)容错性:机器学习的算法设计和模型评价容忍非最优值点的存在,同时多次迭代的特性也允许在循环的过程中产生一些错误,模型的最终收敛不受影响。

     

    (3)参数收敛的非均匀性:模型中一些参数经过少数几轮迭代后便不再改变,而有些参数则需要很长时间才能达到收敛。

     

    这些特点决定了理想的大亚博电竞客户端下载系统的设计和其他计算系统的设计有很大不同,直接应用传统的分布式计算系统应用于大亚博电竞客户端下载,很大比例的资源都浪费在通信、等待、协调等非有效的计算上。

     

     

    传统的分布式计算框架MPI(message passing interface,信息传递接口)虽然编程接口灵活功能强大,但由于编程接口复杂且对容错性支持不高,无法支撑在大规模亚博体育app彩票上的复杂操作,研究人员转而开发了一系列接口简单容错性强的分布式计算框架服务于大亚博电竞客户端下载算法,以MapReduceSpark和参数服务器ParameterServer等为代表。

     

    分布式计算框架MapReduce将对亚博体育app彩票的处理归结为MapReduce两大类操作,从而简化了编程接口并且提高了系统的容错性。但是MapReduce受制于过于简化的亚博体育app彩票操作抽象,而且不支持循环迭代,因而对复杂的机器学习算法支持较差,基于MapReduce的分布式机器学习库Mahout需要将迭代运算分解为多个连续的Map Reduce 操作,通过读写HDFS文件方式将上一轮次循环的运算结果传入下一轮完成亚博体育app彩票交换。

     

    在此过程中,大量的训练时间被用于磁盘的读写操作,训练效率非常低效。为了解决MapReduce上述问题,Spark 基于RDD 定义了包括Map Reduce在内的更加丰富的亚博体育app彩票操作接口。

     

    不同于MapReduce 的是Job 中间输出和结果可以保存在内存中,从而不再需要读写HDFS,这些特性使得Spark能更好地适用于亚博体育app彩票挖掘与机器学习等需要迭代的大亚博电竞客户端下载算法。基于Spark实现的机器学习算法库MLLIB已经显示出了其相对于Mahout 的优势,在实际应用系统中得到了广泛的使用。

     

    近年来,随着待分析亚博体育app彩票规模的迅速扩张,分析模型参数也快速增长,对已有的大亚博电竞客户端下载模式提出了挑战。例如在大规模话题模型LDA 中,人们期望训练得到百万个以上的话题,因而在训练过程中可能需要对上百亿甚至千亿的模型参数进行更新,其规模远远超出了单个节点的处理能力。

     

    为了解决上述问题,研究人员提出了参数服务器(Parameter Server)的概念,如图5所示。在参数服务器系统中,大规模的模型参数被集中存储在一个分布式的服务器集群中,大规模的训练亚博体育app彩票则分布在不同的工作节点(worker)上,这样每个工作节点只需要保存它计算时所依赖的少部分参数即可,从而有效解决了超大规模大亚博电竞客户端下载模型的训练问题。目前参数服务器的实现主要有卡内基梅隆大学的PetuumPSLit等。

     

    在大亚博电竞客户端下载的应用过程中,可视化通过交互式视觉表现的方式来帮助人们探索和理解复杂的亚博体育app彩票。可视化与可视分析能够迅速和有效地简化与提炼亚博体育app彩票流,帮助用户交互筛选大量的亚博体育app彩票,有助于使用者更快更好地从复杂亚博体育app彩票中得到新的发现,成为用户了解复杂亚博体育app彩票、开展深入分析不可或缺的手段。大规模亚博体育app彩票的可视化主要是基于并行算法设计的技术,合理利用有限的计算资源,高效地处理和分析特定亚博体育app彩票集的特性。

     

    通常情况下,大规模亚博体育app彩票可视化的技术会结合多分辨率表示等方法,以获得足够的互动性能。在科学大规模亚博体育app彩票的并行可视化工作中,主要涉及亚博体育app彩票流线化、任务并行化、管道并行化和亚博体育app彩票并行化4 种基本技术。

     

    微软公司在其云计算平台Azure 上开发了大规模机器学习可视化平台(Azure Machine Learning),将大亚博电竞客户端下载任务形式为有向无环图并以亚博体育app彩票流图的方式向用户展示,取得了比较好的效果。在国内,阿里巴巴旗下的大亚博电竞客户端下载平台御膳房也采用了类似的方式,为业务人员提供的互动式大亚博电竞客户端下载平台。

     

  • 资质查询快速通道