荣新IT培训中心
全国咨询热线:400-1335-066
您现在的位置:首页>媒体报道 > 正文

数据分析师培训 处理结构数据

时间:2017-12-06 14:31:45 来源:荣新IT教育培训 作者:荣新科技
处理数据机构是很多做大数据的同同学头疼的事,因为涉及到的东西很多很复杂,而且琐碎。所以今天荣新科技为大家分享下多年来的总结,让参加大数据培训的同学有个更好的了解。

数据分析师培训 处理结构数据

 
 
因为特征生成(比方 CNN 的卷积层)的实质和才能很杂乱,所以深度学习在各式各样的图画、文本和音频数据问题上得到了广泛的运用。这些问题无疑对人工智能的开展十分重要,并且这一范畴的尖端研究者每年都在分类猫、狗和船等使命上你追我赶,每年的成果也都优于前一年。但在实际职业运用方面我们却很少看到这种状况。这是为什么呢?公司企业的数据库涉及到结构化数据,这些才是刻画了我们的日常生活的范畴。

首要,让我们先定义一下结构化数据。在结构化数据中,你能够将行看作是收集到的数据点或调查,将列看作是表明每个调查的单个特点的字段。比方说,来自在线零售商店的数据有表明客户买卖事情的列和包括所买产品、数量、价格、时刻戳等信息的列。

接下来我们谈谈如何将神经网络用于结构化数据使命。实际上,在理论层面上,创建带有任何所需架构的全连接网络都很简略,然后运用「列」作为输入即可。在丢失函数经历过一些点积和反向传达之后,我们将得到一个练习好的网络,然后就能够进行猜测了。

虽然看起来十分简略直接,但在处理结构化数据时,人们往往更偏爱根据树的办法,而不是神经网络。原因为何?这能够从算法的视点了解——算法究竟是如何对待和处理我们的数据的。

人们对结构化数据和非结构化数据的处理方式是不同的。非结构化数据虽然是「十分规的」,但我们一般处理的是单位量的单个实体,比方像素、体素、音频频率、雷达反向散射、传感器丈量成果等等。而关于结构化数据,我们往往需求处理多种不同的数据类型;这些数据类型分为两大类:数值数据和类别数据。类别数据需求在练习之前进行预处理,因为包括神经网络在内的大多数算法都还不能直接处理它们。

编码变量有许多可选的办法,比方标签/数值编码和 one-hot 编码。但在内存方面和类别层次的真实表明方面,这些技能还存在问题。内存方面的问题可能更为明显
文章源自荣新科技官网:www.vfast.com.cn欢迎访问,转载需注明出处