大数据存储与应用数据流挖掘培训教材(PPT 64页)
所属分类:大数据
文件大小:623 KB
下载要求:10 学币或VIP
点击下载内容
流数据模型
系统,示例
抽样
过滤
数目统计
矩估计
窗口内计数
衰减窗口
预览
谷歌/淘宝是怎么做下面这些事情的
取样
比例取样
固定size取样
频度统计
统计item发生的次数
白名单过滤
统计不同查询的个数
评估用户访问的均匀性
发现最热item
简单的数据统计问题,在大数据场合下,新的方法
系统
示例
查询
问题
流
数据以流的方式进入
搜索引擎的查询请求
微博更新
特点
无穷
非平稳
流的到达速率取决于用户行为,系统无法控制
元素(Element)
Tuple
大数据下的系统限制
流源源不断地来
要求实时处理
系统限制
存储限制,不能存这么多
存得多,处理量也大,处理能力限制
NSA(美国棱镜门)
存几个月
流处理
有限存储情况下,怎么实时处理?
Onlinelearning
模型
两种查询
固定查询:
Standingquery
从不停止
例:
历史最高温度
事先写好
Ad-hoc查询
不全存,但还是存一些内容
根据这些存储的内容应答
取样:
随机取样(Sampling)
过滤(白名单):选取特定属性的元素(Filtering)
计数(一定窗口内)
有多少个不同的元素?(distinctelements)
各元素的Popularity?
特征:各阶矩
谁最流行?
应用
Google:
查询流
发现最流行的查询关键字
Yahoo:
发现最流行的页面
微博:
发现最热的话题
找人
传感器网络
电话记录
美国,棱镜门
网络交换机
流量统计,优化路由
检测DDoS攻击
Sampling
两种抽样
固定比率抽样
1in10
固定Size抽样
总是保持s个元素
应用场合
搜索引擎,一个用户的搜索中,重复的有多少?
存不了全部,可以存1/10
最明显的办法
每来一个query
生成一个随机整数:0…9
如果是0,就存起来
1/10的采样
然后统计其中的用户重复搜索比例
对吗?
有问题
..............................
精品资料网 m.cnshu.cn
Copyright © 2004- 粤ICP备10098620号-1