站点图标 江湖人士

使用TensorFlowKafka和MemSQL进行实时机器学习

使用TensorFlowKafka和MemSQL进行实时机器学习

—-若何建立一个简单的机械进修通道,进行流式处置分类,并支撑SQL查询

TensorFlow曾经成为领先的机械进修库之一,与运转数据库相连系,为快速建立复杂的机械进修工作流供给根本。

在这篇文章中,我们将摸索一个利用数据集的机械进修工作流。总体方针是通过机械比力建议,一小我通过查看分歧的人的设置装备摆设文件间接选择与本人婚配的人。数据集来自Kaggle尝试。

作为工作流的一部门,我们将细致引见若何利用MemSQLPipelines未来自Kafka的数据及时传输到数据库中。在摄取数据后,利用TensorFlow内置的TensorFlow算法来分类数据。最初,将看到机械若何确定婚配。

下面的架构是由通过Kafka流式传输的锻炼和分类数据构成,并存储在持久的可查询的数据库中。在这种环境下,将利用MemSQL并操纵Pipelines功能在流中在保留TensorFlow操作之前,将其保留到数据库中。

在Kafka方面,我们设置了两个Kafka主题、分类和培训。原始培训和分类数据从这些Kafka主题流入MemSQL管道。在数据库方面,我们建立了一个名为speed_dating_matches的数据库,并在该数据库中建立了两个表,即dating_training和dating_results。

dating_training是一个单行表,我们把锻炼评估的输出放在锻炼中

dating_results是一个包含所相关于潜在日期的数据的表格,以及确定这个日期能否婚配。

它们未来自Kafka主题的数据进行流式处置,利用该数据进行锻炼或分类,并将最终成果放在响应的表格中。

速度约会消息包罗在六个特征平分配100个优先点:吸引力,智力,趣味,配合乐趣,诚意和理想。

它还包罗家乡的列传和乐趣消息、进修乐趣(数据来自卑学生)、快乐喜爱片子、瑜伽、旅游和电子游戏等。

锻炼数据是一组预定婚配,而且分类数据预测婚配的可能性。有了这些消息,我们能够看到在锻炼数据中婚配的人,并用我们本人的问题的谜底看看我们可能婚配谁。

从那里,我们能够提出更细致的问题,好比一般人在约会属性和乐趣方面寻找什么,以及一般人和我婚配的人有什么分歧?

CSV字段名称。CSV字段名称是将CSV读入Pandas数据框时将利用的名称。

TensorFlow分类特征列。分类要素列是不克不及由离散数字暗示的项目。诸如栖身国、职业或母校等特征都是分类特征栏的例子。TensorFlow的一个主要功能是你不需要晓得给定的类别有几多分歧的值,它将为你建立向量。请参阅TensorFlow文档中TensorFlow线性模子教程的“根基分类特征列”部门。

TensorFlow持续特征列。持续特征是能够用数字暗示的任何工具。像春秋,工资和最高运转速度等特征都是能够利用持续特征栏来暗示的事例。更多消息,请参阅TensorFlow线性模子教程的“根基持续特征列”部门。

在这个例子中,速度约会数据对象被暗示为由他们若何陈列特征,完成列传消息和列出的乐趣构成的向量:

鄙人图中,我们能够看到,锻炼数据被传送来锻炼线性分类器模子,分类数据通过TensorFlow模子,按照婚配的可能性输出0或1。

有了这些根本设备,能够将本人的消息添加到组合中。在这种环境下,将小我的约会消息输入到分类工作流程中,并预测婚配的可能性。为了评估无效性,能够看看这些婚配能否有间接选择的项目。

这个全体架构有很多长处。它支撑通过Kafka简单地传输新数据,利用开箱即用的TensorFlow模子,并以一种能够用SQL轻松查询的格局保留数据。从底子上供给了将数据流式传输到MemSQL,并同时进行分类的功能。更多消息,请参阅TensorFlow文档中关于供给TensorFlow模子的文档。

刘志红(Alice Liu).16年IT从业经验。曾在NTT DATA, Oracle,中钞造币集团,中国电信云计较分公司处置云计较等联系关系IT工作。具有软件著作权1件。前往搜狐,查看更多

退出移动版