algorithm - 某储备粮的“学习笔记”

Master Theorem

T(n) = a * T(n / b) + f(n)
x    = log_b(a)
T(n) = θ(n^x)          if f(n) = O(n^(x-ε))
       θ(n^x * lg(n))  if f(n) = θ(n^x)
       θ(f(n))         if f(n) = Ω(n^(x+ε)) 
                          and a * f(n/b) &lt;= c * f(n)

Greedy

At each step, make the "best" next choice.
Never backtrack or change past choices.
Never look ahead to see if this choice has negative consequences.

Run-Length Encoding (RLE)

思路: 将连续的0或1用位数表示, 缩减重复段所占的位置

第一位表示由0或者1开头
之后用prefix-free integer encoding表示每一个Run的长度
- 后x位表示这个run的binary长度
- 前x-1位填零, 为unary表示后x位的长度减一

Huffman Coding

思路: 用特殊的binary编码表, 省略ASCII/UTF-8编码中无用字符所占用的位置

用binary trie表示字典中的所有字符
将文本依照trie转成binary

如何建立压缩比最好的trie

将每个字符存入独立的trie中
确定每个字符的出现次数(频率), 一个trie的比重(weight)即为trie中字符的频率和
将weight最小的两个trie合并成一个新trie
重复上一步直到只剩下一个trie

Tries

单词查找树 Tries (Radix Tree):

左0右1

item只存在leaf上

Prefix-free: 任意一个key不能有其他key是他的前缀(比如: 1101和11011不能共存)

Search: 逐位执行BS

Insert: 逐位执行BS

如果找到某leaf与insert的item不等, insert fail. (现存item是新item的prefix)

如果在某个node搜索结束, insert fail. (新item是其他key的prefix)

如果无路可走了, 开路出来.

Delete: Search到对应item以后, 删除这个leaf以及其他无用的node.

Compressed Tries (Patricia Tries):

相比普通Tries, compressed tries去除了额外的node(只有一个child的node). 其他基本相同.

每个node中增加了下一层Search中, 需要检测的位数

Multiway Tries:

以特定alphabet集合为基础, 建立的Tries

通过$ sigh以允许prefix存在

不是Binary Tree

同样可以compress, 与Compressed Tries方法相同

String Matching 要match的string为T, pattern为P

Brute-force Algorithm

从前往后依次比对P的首字母

如发现与首字母匹配, 则继续比对剩下的字符直到P结尾

如P未结尾时出现不匹配, 则回到与首字母匹配位置的下一个, 继续比对首字母

如T结尾, 则无匹配

Boyer-Moore Algorithm

将T和P右对齐

从P的结尾开始, 依次向前与T比对

如遇到不匹配, 检查T该位置的字符是否在P中出现过

如出现过, 则将该字符在P中最后出现的位置, 与T对齐

如没出现过, 则讲P向后shift一个P的长度

重复第二步

如T结尾, 则无匹配

KMP Algorithm

建立KMP Failure Array 位于j点的F(j)值等于P[1..j]的结尾与P的开头所重叠的字符位数

将T和P左对齐

从P的开头开始, 依次向后与T比对

如遇到P[i]不匹配, P向后shift[i - F(i-1)]位, 且 i 值assign为F(i-1)

如T结尾, 则无匹配

Suffix Tree (Trie) 与前几个Algorithm相反, 此Algorithm是为了在同一个T中寻找不同P而建立的.

Post-condition: T长度为n, i值为从0到n-1
1. 将所有T[i..n]依次insert进Compressed trie
2. 因为Compressed trie的性质 (prefix-free), 如果某一个T[i..n]是已有node的prefix, 则不会被insert
3. 每个node和leaf中, 保存对应的i和n值
4. 在Compressed trie中搜索, 将P与每个node进行比对. (长度以P为准)
5. 如果遇到node长度小于P长度, 则无匹配.

= =`最后一个Module后天再说...每天都看Algorithm会死人的`明天收拾251

更多CS 240总结请看: http://blog.gregwym.info/tag/cs240/

在我总结这个Module之前允许我吐槽一下...`

Assignment 5, 泥玛那个是什么脑残傻缺的ADT啊`! 放着Slide里这么好的三种ADT你不用啊`!!! 你跑去弄什么x-min-heap外加y-BST, 还弄个好听的名字叫Heap-tree`!!! 泥玛就是个残废啊`有木有有木有~!!! 不光残废啊, 是连TA自己都搞不懂到底该怎么用啊`!!! 连"You can slightly break the heap proerty"都说出来了...这种东西随便写写就让他过去吧`!!!!! 以后做工程真的用, 程序怎么死的都不知道啊`!!!

吐槽完毕= =`回归正题

我们日常生活中的很多数据并不是一对一的KVP (不懂KVP的请去看, 总结四 - BST篇).
拿Slide里的例子来说, 买一台电脑, 不光要看它的CPU是什么型号, 还要看内存多大, 硬盘多大, 显卡怎么样, 价钱多少, etc. 这样的数据都是一个key对多个value.

这种情况下, 如果我需要找一台CPU 2.2GHz以上+内存4G-8G的电脑, 就需要从我的data中进行Range Search Query, 而且是2D的Range Search. 如果我在这个条件上再+要至少3T硬盘存xx...那就是3D的Range Search了.

我们之前学习的Sort也好, Tree也好, 都是针对1D数据的排序和搜索, 碰到2D和3D就都傻了.
以下三个ADT就能很好的解决这个问题.

Quadtree

将所有数据放在一个平面空间里 (咱们想象力能及的只有2D和3D空间, 这里以2D举例)
将整个平面以对边中点的连线为基准, 切两刀分成四份 (3D空间的话, 需要多切一刀...)
针对每一个切出来的平面重复上一步, 直到这个平面内只有一个item为止

也就是说, Quadtree每个node最多有4个child, 如果以整个平面的中心为坐标中点的话, 这4个child代表每一个象限内的点的集合, 以此类推. 所有item都只存在于leaf中

Search和BST一样, 不解释
Insert就一个规则, 只要不是单身汉, 别管他3p还是5p, 都要给他们拆散! 直到新item有单间为止
Delete就是insert相反, 先把item赶走, 然后把单间拆掉
优点: 简单, 拆两半两半两半再两半就ok了; 对higher dimensions也很容易implementl;
缺点: 占用空间大; 如果数据分布不平均, Tree就会unbalanced, height就会变得很恐怖;

Kd-tree

将item以x-coordinate排序, 画一条过median点的纵线(vertical) (同样以2D举例)
对第1步切分出来的两个平面, 分别以y-coordinate排序, 然后过median画一条横线(horizontal)
对第2步切分出来的平面(们)...重复第一步
如果某一步切分出的某个平面内只有一个item, 则停止.

此法解决了Quadtree会unbalanced的问题, 其他一样.
与Quadtree相同, 所有item都只存在于leaf中

Range Tree

以x-coordinate为基准建立balanced BST T (同样以2D举例)
针对T中的每一个node v_i, 用v_i及其所有children建立以y-coordinate为基准的T_assoc(v_i)
将v_i链接到T_assoc(v_i)

也就是说, Range Tree第一层的每一个subtree背后, 都有一个以y-coordinate排序的另一个BST
如果是higher dimensions的话, 则要多几层associated BST嵌套
Search
- 用x-coordinate进行BST Search
- 对所有inside node的顶部(root of the subtree)的T_assoc, 执行y-coordinate的BST Search
- 对所有不确定的边缘node (卡在指定range的边上), 逐一进行单独判断
Insert
- 依照x-coordinate进行BST insertion
- 从最终insert的位置, travel回root. 并将item insert到途经的所有node的T_assoc中
Delete和Insert相反
缺点: balance难度较大.

更新1: 修正了Range Tree的错误解释

更多CS 240总结请看: http://blog.gregwym.info/tag/cs240/

各种Binary Search的变种 (杂种?)

插值查找法 Interpolation Search

在已知Array A大小的前提下, 假设A中的数据呈线性排列

用比例推测所查找值 K, 可能存在的Index I
I = I_low + (I_upper - I_low)(K - K_low) / (K_upper - K_low)

如果A中的数据分布比较平均, 此法效率比BS高

否则相反

更详细的解释, 可参考: 【演算】內插搜尋法 - Interpolation Search

Gallop Search

先推测出K所在的范围, 然后执行BS

适用于数据量大的搜索. 通过减小BS的搜索范围, 优化性能.

跳跃列表 Skip Lists (我觉得最有意思的数据结构)

整个表以多层表的形式出现, 每层均包含"极小"和"极大"两个item

每个item拥有一个随机的height值

最顶层只包含两个极值, 层数越低, 包含的item越多, 直到底层.

Search方式

从顶层起

如果该层中的下一项item大于K, 则落入下一层

否则继续在该层向后查找

针对访问概率进行的优化

自排序搜索 Self-Organizing Search

如果我们知道某一系列数据中, 每一个item可能被访问的概率

依照每一项的概率对数据进行排序, 优化高概率item的访问效率

如果不知道可能的访问概率, 则需要...

动态排序 Dynamic Ordering

方法一: Move-To-Front(MTF)

将每次搜索到的item移到最前

近期内再搜索此item的时候, 效率会提高

方法二: Transpose

将每次搜索到的item与其前一项互换

多次访问同一item以后, 该item的排序会提前很多, 访问效率会提高

更多CS 240总结请看: http://blog.gregwym.info/tag/cs240/

某储备粮的“学习笔记”

CS 341 Algorithm 复习小记

Author: 咳嗽di小鱼 Date: December 15, 2011 Category: Sum Up 1 Comment

Master Theorem

Greedy

CS 240复习总结之九: Compression

Author: 咳嗽di小鱼 Date: April 11, 2011 Category: Sum Up 30 Comments

Run-Length Encoding (RLE)

Huffman Coding

CS 240复习总结之八: Tries & String Matching

Author: 咳嗽di小鱼 Date: April 8, 2011 Category: Sum Up 2 Comments

Tries

单词查找树 Tries (Radix Tree):

Compressed Tries (Patricia Tries):

Multiway Tries:

String Matching 要match的string为T, pattern为P

Brute-force Algorithm

Boyer-Moore Algorithm

KMP Algorithm

Suffix Tree (Trie) 与前几个Algorithm相反, 此Algorithm是为了在同一个T中寻找不同P而建立的.

CS 240复习总结之七: Range Search Query

Author: 咳嗽di小鱼 Date: April 7, 2011 Category: Sum Up No Comments

Quadtree

Kd-tree

Range Tree

CS 240复习总结之六: Dictionary Tricks

Author: 咳嗽di小鱼 Date: April 7, 2011 Category: Sum Up No Comments

各种Binary Search的变种 (杂种?)

针对访问概率进行的优化

Recent Comments

Labels

Archives

Others