谷歌用ML模型替代数据库组件或彻底改变数据系统开发机器学习将取代数据库搜索

本周，谷歌团队在arXiv上传了一篇论文，切磋用机械进修代替数据库索引，激发了大量的关心和会商。作者还概述了若何利用这一思惟来替代数据库系统的其他组件和操作，包罗排序和毗连。若是成功，数据系统的开辟体例将会完全改变。

“若是这项研究取得更多的功效，未来有一天我们很可能回过甚看然后说，索引是最先倒下的，接着是其他的数据库组件（排序算法、查询优化、毗连），它们都逐步被神经收集代替。”纽约州立大学布法罗分校的计较机科学和工程传授Murat Demirbas如许说。

这篇论文旨在证明“机械进修模子有潜力大幅超越当前最先辈的数据库索引，供给好良多的机能”。

斯坦福大学Chirs Manning传授颁发Twitter，评论称谷歌团队这篇论文用机械进修替代保守算法，并且“一口吃掉一大块”

索引（Index），就是一种对数据库表中一列或多列的值进行排序的布局，利用索引能够快速拜候数据库表中的特定消息。数据库的索引比如图书的目次，目次能让你在看书时不把整本书看完就快速找到需要的消息，索引也能让数据库法式敏捷地找到表中的数据，而不必将整个数据库扫描完。

可是，数据库在使用索引时，对数据本身并不领会，数据相当于一个黑盒，而不领会数据的分布，形成了很大的华侈。

举例来说，若是键的范畴在0到500m之间，比升引哈希，间接把键当索引速度可能更快。若是晓得了数据的累积分布函数（CDF），“CDF*键*记实大小”可能约等于要查找的记实的位置，这一点也合用于其他数据分布的环境。

作者在论文中暗示，切确领会数据分布，能够大幅优化当前数据库系统利用的几乎所有索引布局。

可是，切确领会数据分布，数据库就成了“白盒”，得到了可重用性。如许一来就需要查抄数据，每次都从头起头设想索引。

于是，谷歌研究人员想到了机械进修方式，并利用此中最强的一种神经收集，去进修数据分布，并用学到的学问预测数据的分布。

如许一种折中的方式，让数据索引变得“data-aware”，由此获得机能的提拔。

他们将神经收集使用于三种索引类型：B树，用于处置范畴查询；哈希映照（Hash-map），用于点查找查询；以及Bloom-filter，用于设置包含查抄。下面着重引见一下作者若何用神经收集替代B树。

B树供给了一种无效的分层索引。从概念上讲，B-tree将一个键映照到一个页面。因而，我们能够用一个模子，也进行键的位置映照，而对于错误范畴，我们能够做一个二进制搜刮（或扩展环搜刮）的变体来定位页面。

要晓得min_error和max-error，就用具有的数据来锻炼模子。数据是静态的，神经收集进行预测，然后从这些错误中进修。即便简单的逻辑回归也能够用于简单的分布。

在测试时，作者将机械进修索引与B树进行比力，他们利用了3个实在世界数据集，此中收集日记数据集（Weblogs）对索引而言极具挑战性，包含了200多万个日记条目，是良多年的大学网站的请求，并且每个请求都有单一的时间戳，数据中含有很是复杂的时间模式，包罗课程放置、周末、假期、午餐歇息、部分勾当、学期歇息，这些都长短常难以进修的。

从上图可见，对于收集日记数据，机械进修索引带来的速度提拔最高达到了53%，对应的体积也有76%的缩小，比拟之下误差范畴稍有加大。

这里有一个环节点，那就是用计较换内存，计较越来越廉价，CPU-SIMD/GPU/TPU的功能越来越强大，学习数据库作者以至指出，“运转神经收集的昂扬成本在将来能够忽略不计谷歌TPU可以或许在一个周期内最高完成上万次神经收集运算。有人声称，到2025年CPU的机能将提高1000倍，基于摩尔定律的CPU在素质大将不复具有。操纵神经收集代替分支重索引布局，数据库能够从这些硬件的成长趋向中受益。”

论文还引见了几个策略来提高机械进修索引的机能，包罗利用递归模子索引、分层模子和夹杂模子。机械进修方式都带来了能效提拔，具体的评估成果请参考论文。

需要指出，作者并不认为机械进修索引布局能够完全替代保守索引。“我们阐述了一种成立索引的新方式，它完美了现有的研究，而且为该范畴数十年的研究斥地了一个新标的目的。”

作者还概述了若何利用这一思惟来替代数据库系统的其他组件和操作，包罗排序和毗连。若是成功，数据系统的开辟体例将会完全改变。