拥有高方差使得决策树(secision tress)在处理特定训练数据集时其结果显得相对脆弱。bagging(bootstrap aggregating 的缩写)算法从训练数据的样本中建立复合模型,可以有效降低决策树的方差,但树与树之间有高度关联(并不是理想...

作者:王松磊近期我们的数据库团队对原生复制的多个方面进行了深度优化,提升了UDB高可用数据库的功能和性能。今天借社群这个平台,跟大家分享一二。一、UDB高可用数据库架构UDB以虚拟IP、HAProxy、单节点UDB数据库搭建双节点高可...

作者:梁福坤前言:大数据的分布式调度是在进行数据ETL过程中起到了总体的承上启下的角色,整个数据的生产、交付、消费都会贯穿其中,本文从调度、分布式调度的特征展开,再对大数据调度个性化特征的一些阐述,由满足大数据使用的架...

作者:HollyMike随着大数据越来越被重视,数据采集的挑战变的尤为突出。今天为大家介绍几款数据采集平台:Apache Flume Fluentd Logstash Chukwa Scribe Splunk Forwarder大数据平台与数据采集任何完整的大数据平台,一般包括以...

作者:丁小明丁小明,花名小宝,蘑菇街搜索技术团队负责人。2011年底加入蘑菇街,2013年开始负责搜索团队,见证了蘑菇街一路蓬勃发展的历程,也和团队一起从零起步摸爬滚打,打造了蘑菇街的搜索推荐体系,包括自主研发的C++主搜引擎...

四年前我一次听说数据挖掘这个词,三年前我学习了数据挖掘理论知识,两年前我做了几个与数据挖掘有关的项目,一年前我成为一名数据挖掘工程师,今天我把数据挖掘入门资料整理了一下,希望能够对新人有帮助。一、python推荐粗读《H...

PPT来源ArchSummit全球架构师峰会2017美团点评两家公司合并以来,经历了组织架构融合、线上业务融合、数据与基础设施融合的三个大阶段。本次分享主要介绍第三阶段,美团点评整个数据平台融合的项目推进经验,以及相关技术突破,期...

作者:张松然现今互联网界,分布式系统和微服务架构盛行。一个简单操作,在服务端非常可能是由多个服务和数据库实例协同完成的。在一致性要求较高的场景下,多个独立操作之间的一致性问题显得格外棘手。基于水平扩容能力和成本考虑...

就在大家阅读标题的这段时间当中,美国航空航天局可能已经从目前处于活跃状态的大约100项任务当中收集到高达1.73 GB数据。美国航空航天局(简称NASA)正持续推进相关工作,而数据的收集速度亦以指数方式不断增长。也正因为如此,对这...

【作者简介】王小波,携程技术中心框架研发部高级工程师,主要负责用户行为数据采集系统及相关数据产品研发设计工作。之前主要从事互联网广告、RTB相关系统研发和设计工作。本文来自王小波在“携程技术沙龙——移动开发工程实践与性能优...