大数据–智慧数据的路线图

使用大数据从数据中提取价值是一回事。但是,将大数据与结合了本体的神经网络一起使用会将您的数据价值提高到一个全新的水平,使其变得更智能。

街道地图地图方向旅行计划000000559894
iStockphoto

大数据是信息技术行业中使用的一个术语,表示将多个信息源一起构建到一个 数据湖,它是建立在相对便宜的高性能计算机硬件上的数据存储库。您可以通过现有的报告和业务分析系统从数据湖中提取数据的价值。此外,大数据解决方案的机器学习功能的出现提供了附加的分析功能。机器学习已得出有意义的见解,可用于支持业务发展和组织发展。

机器学习和大数据

当前形式的大数据将减少您的运营和基础架构成本,但不会为您的企业提供任何企业数据仓库所提供的附加价值。这是为什么?大数据解决方案中采用的当今机器学习功能不比企业数据仓库解决方案中已使用的统计包更多。

对于当今的大数据时代而言,这可能是正确的。但是,未来拥有与大数据集成的新的机器学习工具集。这些新的机器学习工具属于神经网络。首先了解神经网络可以做什么和不能做什么可能会有所帮助。

神经网络功能

首先,神经网络无法思考!以后再说。神经网络具有分类,回归分析和预测的功能。有了这些功能,以下是神经网络擅长的一个小而令人惊讶的使用示例:

  • 物体和图像识别
  • 面部识别
  • 语音和视频识别
  • 自然语言处理
  • 情绪分析
  • 医疗类& radiology diagnosis
  • 药物发现
  • 金融交易和长期投资
  • 数位广告
  • 无人驾驶汽车
  • 远程机器人
  • 市场营销和销售(客户信息)
  • 农业&环境条件
  • 欺诈检测,法规遵从和遵守

还有更多壮观的用途,但是上面的列表将使您了解大数据平台还处于起步阶段。

重要的是要了解并非所有神经网络都是平等创建的。选择与您要解决的特定问题不符的神经网络将导致准确性和性能下降。

为了了解如何使用不同的神经网络,下面是一小部分用法样本和最适合问题空间的神经网络,以及它们如何与其功能保持一致。注意:详细介绍这些网络的工作方式超出了本文的范围。

  • 图像识别将使用深度信念网络(DBN)或卷积神经网络(CNN)。
  • 诸如无人驾驶汽车之类的语音识别或延时问题将使用递归神经网络(RNN)。
  • 自然语言过程,情感分析和命名识别识别将使用递归神经张量网络(RNTN)或递归网络。
  • 对象识别将使用CNN或RNTN。

训练神经网络

神经网络需要训练。训练神经网络的过程称为“反向传播”。反向传播需要大量时间来训练使用常规CPU的网络。这就是神经网络社区转向使用图形处理器单元(GPU)的原因,因为它们在训练神经网络方面的速度提高了250倍。那是一天的培训与使用常规CPU的八个月以上的培训之间的区别。谁会想到传统的大型机将被Xbox和PlayStation取代!

神经网络最擅长识别模式。如果您要训练神经网络来识别狼,狗,猫和牛之类的东西,您是否可以看到任何关系模式?具体来说,神经网络是否能够识别狼是野生动物而狗,猫和牛是驯化的模式?还是狼,狗和猫是肉食性的,而牛是草食性的呢?如果您的神经网络已针对这些模式进行了训练,那就可以了。这些类型的关系称为知识表示。

这就是为什么神经网络不认为,它们从根本上缺乏识别要训练的模式的概念。为了很好地训练网络,您需要提供适量的信息,以将模式概括为您要学习的概念。提供的培训信息太少,将无法识别该模式。提供太多的培训信息,您将有较差的表现,并且您会错过该模式,因为没有足够的输入数据来满足培训集规范。

提取知识

找到模型的“金发姑娘”是本体起作用的地方。本体不仅可以帮助您确定与业务概念的所有相关关系模式,而且还可以提供验证模型和推断新关系的方法。就像上面将动物分为不同概念的示例一样,正是这种关系才使您的数据更智能。

在当今全球互联的世界中,您的公司是否具有定义明确的业务模式来描述当今如何使用您的业务概念?在我之前的文章中,不要按我说的去做,”我阐明了银行业如何使用本体开发知识模型来描述业务概念和功能来减轻全球风险。这就是为什么银行业与企业数据管理集团(EDM)合作开发的原因 金融业业务本体(FIBO)。一旦将他们的业务概念推广到功能之后,他们将能够使用神经网络浏览大量数据,以识别任何潜在的风险暴露。

本文介绍了高级计算机科学概念,这些概念不能在一周内通过阅读一些网络教程来简单掌握。如果您的公司没有在R中投入实际资金&D和培训之后,您的公司就只是在为股东和客户制定无关紧要的路线图。

利用这些高级功能构建大数据解决方案将确保您具有迅速管理任何新威胁的优势,并为跨越竞争提供了基础。

版权© 2016 IDG通讯,Inc.