读者QQ群②:190771709,投稿请发dashuju36@qq.com
我要投稿

标签:数据挖掘

决策树归纳的理论介绍

大象会跳舞   2017-06-21   数据挖掘

作者:丑小鸭 什么是分类? 银行贷款员需要分析数据,以便搞清楚哪些贷款申请者是“安全”那些是“有风险”的。销售经理需要数据分析,以便帮助他猜测哪些顾客会购买计算机。再或者医学研究人员...

阅读全文

无监督识别词语算法的Python实现

小数点   2017-05-26   Python

作者:邓旭东HIT 前几天写了《简单的中文分词算法》,今天就用Python写个 伪分词算法实现。 说 伪分词是因为我这脚本其实并不能对文本进行分词,只是计算两个汉字组合成词的概率(由于是无...

阅读全文

HBase最佳实践-用好你的操作系统

大象会跳舞   2017-05-25   数据库

作者: 范欣欣 终于又切回HBase模式了,之前一段时间因为工作的原因了解接触了一段时间大数据生态的很多其他组件(诸如Parquet、Carbondata、Hive、SparkSQL、TPC-DS/TPC-H等),虽然只是走...

阅读全文

机器学习决策树算法学习笔记

图表大师   2017-05-09   机器学习

作者:xiabigao 基本概念 决策树是分类算法。 数据类型:数值型和标称型。因为构造算法只适用于标称型,所以数值型数据必须离散化。 工作原理 利用香浓熵找到信息增益最大的特征,按照信息...

阅读全文

杨义先:大数据的道性

诺蓝   2017-05-04   趣味分享

作者:杨义先 (一)前言 工科生看大数据时,绝不会关注其哲学含义,只会醉心于大数据的如下七个工程特性: 海量性,数据量有多大,因为数据量的多少决定了这些数据的价值和潜在的信息; 种...

阅读全文