6种使机器学习更轻松的工具

供应商通过提供用于自动执行数据准备和算法选择的层,向有动机的数据智能业务用户开放AI来消除机器学习的奥秘。

6种使机器学习更轻松的工具
Thinkstock

“机器学习”一词充满了几乎神奇的光环。普通人不教机器学习。这适用于高度专业的炼金术士,例如数据科学家,他们将数据转化为研究部门和实验室的黄金,除了简单地说“科学”外几乎没有其他解释。

当然,这可能是一个鲜为人知的事实,但是多年来,机器学习工具已经发展到几乎所有人都有一点弹拨和驱动力就可以按下按钮并在学习有价值的东西的路上启动一台机器的地步。这并非一a而就,但是整理数据并将其转化为可行的见解的辛苦工作已经足够自动化,以至于聪明的人可以自己动手做。

这种缓慢的复兴是由以下事实驱动的:商业世界中许多非程序员已经非常了解数据。加载数字的电子表格是所有业务和机器学习算法级别的决策者的通用语言,还包括具有明确定义的行和列的表中的数据。为了消除一点魔力,用于机器学习的新工具本质上只是将表格数据转化为有用答案的另一组策略和选项。

这些工具的优势在于能够处理繁琐的数据收集工作,并在可能的情况下增加结构和一致性,然后开始计算。它们简化了数据收集过程以及将信息保留在行和列中的麻烦。

遗憾的是,这些工具还不够智能,无法为您完成所有这些学习。您必须提出正确的问题,并在正确的位置查看。但是这些工具加快了寻找答案的速度,因此您可以覆盖更多的地面,在更多的门后面看,并在更多的缝隙中戳戳。

AutoML:使机器学习民主化

最近,一个新的流行词“ AutoML”开始出现,表示机器学习算法带有附加的自动化元层。一直以来,标准算法一直被设计用来搅动数据并自行查找模式和规则,但是传统算法带有许多选项和参数。数据科学家经常花80%至99%的时间摆弄这些表盘,直到找到最可预测的规则。

AutoML通过尝试一系列选项,对其进行测试,然后再尝试其他一些选项,来使此阶段自动化。它无需运行机器学习算法一次,而是运行N次,进行一些调整,然后再次运行N次,通常重复执行直到您的预算,金钱或耐心都用光为止。

AutoML工具自然适合云计算,因为它们可以在云中启动足够多的计算机以并行运行,然后在完成后将它们返回到池中。您只需为高峰计算时间付费。

通常,对于那些开始自己探索机器学习的人们来说,AutoML算法是不错的选择。自动化通过在为您测试结果之前处理一些设置参数和选择选项的基本工作,从而简化了工作。随着用户变得越来越复杂并开始理解结果,他们可以承担更多的工作,并自己设置值。

最新的系统还使学习机器如何学习变得更加容易。如果经典编程将规则和数据转化为答案,则机器学习算法将向后工作,并将答案和数据转化为规则-这些规则可能会教您业务深层的发展。这些简化工具的开发人员还创建了接口,这些接口解释了算法发现的规则,更重要的是,如何复制结果。他们想打开黑匣子以增进了解。

6种使机器学习更轻松的工具

所有这些功能通过消除对编程和数据科学的精通需求,为使用数字,电子表格和数据的人们打开了机器学习的世界。以下六个选项简化了使用机器学习算法查找到达办公桌的大量数字的答案。

Splunk

原始版本 Splunk 最初是作为一种工具来搜索(或“挖掘”)现代Web应用程序创建的大量日志文件。从那时起,它就可以分析所有形式的数据,尤其是时间序列的数据以及按顺序产生的其他数据。该工具在具有复杂的可视化例程的仪表板中显示结果。

最新版本包括将数据源与机器学习工具(如TensorFlow)和一些最佳的Python开源工具集成的应用程序。他们提供了快速的解决方案,用于检测异常值,标记异常并生成对未来价值的预测。它们经过优化,可以在非常大的数据集中搜索谚语。

数据机器人

数据机器人的 堆栈是用R,Python或其他几种平台编写的一些最佳开源计算机库的集合。您将只处理一个Web界面,该界面显示类似于流程图的工具,用于设置管道。 数据机器人连接到所有主要数据源,包括本地数据库,云数据存储以及下载的文件或电子表格。您构建的管道可以清理数据,填写缺失值,然后生成模型,以标记异常值并预测未来值。

数据机器人还可以尝试就做出某些预测的原因提供“人性化的解释”,这是了解AI可能如何工作的有用功能。

它可以部署在云和本地解决方案的混合中。云实施可以通过共享资源提供最大的并行度和吞吐量,而本地安装则提供更多的隐私和控制权。

H2O

H2O 喜欢使用“无人驾驶AI”一词来描述其自动堆栈,以探索各种机器学习解决方案。它将数据源(数据库,Hadoop,Spark等)联系在一起,并将其馈入具有多种参数的各种算法中。您可以控制时间并计算用于该问题的资源,并测试各种参数组合,直到预算完成为止。可以通过仪表板或Jupyter笔记本浏览和审核结果。

H2O的核心机器学习算法以及与Spark等工具的集成都是开放源代码,但是所谓的“无人驾驶”选项是与支持一起出售给企业客户的专有包装之一。

RapidMiner

的核心 RapidMiner 生态系统是一个通过可视图标创建数据分析的工作室。一点点拖放就会产生一条流水线,该流水线将清理您的数据,然后通过各种统计算法来运行它。如果您想使用机器学习代替一些更传统的数据科学,则自动模型将从多种分类算法中进行选择,并搜索各种参数,直到找到最合适的参数为止。该工具的目标是产生数百个模型,然后确定最佳模型。

一旦创建了模型,该工具就可以部署它们,同时测试其成功率并解释模型如何做出决策。可以使用可视工作流编辑器测试和调整对不同数据字段的敏感性。

最近的增强功能包括更好的文本分析,用于构建可视仪表盘的图表的种类更多以及用于分析时间序列数据的更复杂的算法。

BigML

BigML 仪表板提供了用于数据科学的所有基本工具,用于识别相关性,这些相关性可以为机器学习更复杂的工作奠定基础。例如,他们的Deepnets提供了复杂的机制来测试和优化更复杂的神经网络。可以使用标准化的比较框架将模型的质量与其他算法进行比较,该框架可以帮助您在经典数据科学和更复杂的机器学习之间进行选择。

BigML的信息中心在您的浏览器中运行,其分析在BigML云中或服务器机房中的安装中运行。云版本的价格设置得较低,以鼓励早期尝试。甚至还有一个自由层。成本主要取决于数据集大小和可调用的计算资源量的限制。免费层将使用不超过两个并行运行的进程来分析多达16MB的数据。较小的付费帐户的定价非常合理,每月账单低至30美元,但是成本随着资源需求的增加而增加。

R工作室

对于非程序员来说,R不是一种易于使用的语言,但是它仍然是进行复杂的统计分析的最基本工具之一,因为它在核心数据科学家中非常流行。 R工作室 是一种工具,为用户提供了一组菜单和点击选项,从而使与深入内部的R层进行交互变得更加容易。

能够处理电子表格的老练经理可以使用最简单的选项来运行基本分析,甚至可以进行一些复杂的分析。它仍然比需要的要痛苦得多,并且某些部分会使普通用户感到困惑,但是它正处于开放的边缘,每个愿意投资一段时间的人都可以使用。仍然会有一些混乱,但是对于那些想要探索尖端工具的人来说,这是值得的。

版权© 2019 IDG通讯,Inc.