更新时间:2024-03-17 17:14:50作者:佚名
1.大数据概念
大数据技术是指从各类海量数据中快速获取有价值信息的技术。 解决大数据问题的核心是大数据技术。 大数据,即海量数据,是指所涉及的数据量如此之大,以至于无法通过当前主流软件工具在合理的时间内捕获、管理、处理和组织以帮助业务决策。 具有更积极目的的信息。 与传统的数据仓库应用相比,大数据分析具有数据量大、查询分析复杂的特点。
2.数据构成
大数据包括包括交易数据和交互数据集在内的所有数据集,如图:
(1) 海量交易数据:
企业内部的业务交易信息主要包括在线交易数据和在线分析数据,它们是通过关系数据库管理和访问的结构化、静态和历史数据。 通过这些数据,我们可以了解过去发生的事情。
(2)海量交互数据:
由源自、 、 和其他来源的社交媒体数据组成。 它包括通话详细记录 CDR、设备和传感器信息、GPS 和地理位置映射数据、通过托管文件传输文件协议传输的大量图像文件、Web 文本和点击流数据、科学信息、电子邮件等。 可以告诉我们未来会发生什么。
三、大数据特点
首先要从“大”开始。 “大”是指数据的规模。 大数据一般是指10TB(1TB=)以上的数据量。 大数据不同于过去的海量数据。 其基本特征可以用四个V(Vol-ume、Value、)来概括大数据的特征不包括,即体量大、多样性、价值密度低、速度快。
第一个V是海量数据有不同的格式。 第一个是结构化数据,也就是我们常见的数据,还有半结构化的网页数据和非结构化的视频音频数据。 而且他们处理这些数字化的方式是比较大的。 数据的类型有很多,比如网络日志、视频、图片、地理位置信息等。
第二个V是体积比较大。 我们的一些定制每秒需要大量数据。 很多客户内部都有好几批数据,而淘宝有好几个PB的数据,所以PB会是一个比较正常的情况。 。
非结构化数据超大规模且增长占总数据量的80~90%,比结构化数据增长快10~50倍,比传统数据仓库快10~50倍。
第三个V是因为数据化会具有时间敏感性,因此需要快速处理并获得结果。 1秒规则。 最后一点也与传统的数据挖掘技术有着根本的不同。 物联网、云计算、移动互联网、车联网,手机、平板电脑、PC、遍布地球各个角落的各种传感器,都是数据源或者承载方式。
第四个V是Value:大量不相关的信息未经处理价值较低大数据的特征不包括,是价值密度最低的数据。 以视频为例,在连续不间断的监控过程中,潜在有用的数据只有一两秒。 海量数据的分析非常复杂,使得过去单纯依靠数据库BI已经不再适合。
总的来说,“海量()、多样化()、快速()、低价值密度(Value)”是“大数据”的显着特征,如图所示。 具有这些特征的数据就是大数据。
4.大数据技术
大数据主要包括数据采集、数据存储、数据管理和数据分析挖掘技术:
(1)数据采集:ETL工具负责从分布式异构数据源(如关系数据、平面数据文件等)中提取数据到临时中间层进行清洗、转换、整合,最后加载成数据仓库或数据集市。 ,成为在线分析处理和数据挖掘的基础。
(2)数据访问:关系数据库、NOSQL、SQL等。
(3)数据处理:自然语言处理技术。
(4)统计分析:假设检验、显着性检验、差异分析、相关分析、多元回归分析、逐步回归、回归预测和残差分析等。
(5)数据挖掘:分类()、估计()、预测()、相关性分组或关联规则(或规则)、聚类()、描述和可视化、Deion和)、复杂数据类型挖掘(文本、Web、图形)图像、视频、音频等)。
(7)模型预测:预测模型、机器学习、建模与仿真。
(8)结果呈现:云计算、标签云、关系图等。
5.大数据处理
(一) 收藏
大数据的采集是指利用多个数据库从客户端(以Web、App或传感器等形式)接收数据,用户可以通过这些数据库进行简单的查询和处理。 例如,电子商务会使用MySQL等传统关系数据库来存储每笔交易数据。 在收集大数据的过程中,其主要特点和挑战是高并发访问量,因为可能有数千个用户同时访问和操作,例如火车票销售网站和淘宝网,他们的并发访问量是峰值达到百万级,因此需要在采集端部署大量数据库来支撑。 而如何在这些数据库之间进行负载均衡和分片,确实需要深入的思考和设计。
(2)导入/预处理
虽然采集端本身会有很多数据库,但是如果想要有效分析这些海量数据,就应该将前端的数据导入到集中式大型分布式数据库或者分布式存储集群中,并且可以基于Do导入一些简单的清洁和预处理工作。 导入和预处理过程的特点和挑战主要是导入数据量大,每秒导入的数据量往往达到数百兆甚至千兆字节。
(3) 统计/分析
统计分析主要利用分布式数据库或分布式计算集群对其中存储的海量数据进行普通的分析、分类和汇总,以满足最常见的分析需求。 统计分析部分的主要特点和挑战是分析涉及大量数据,消耗大量系统资源,尤其是I/O。
(4) 挖掘
与以往的统计和分析过程不同,数据挖掘一般没有任何预设的主题。 主要是对现有的数据进行基于各种算法的计算,达到()的效果,从而达到一些高层的数据分析需求。整个大数据处理的一般流程至少要满足这四个步骤才可以算是比较完善的大数据处理。
6、大数据应用及案例分析
大数据应用的关键也是其必要条件。 通过用户行为分析进行精准营销是大数据的典型应用。 然而,大数据在各行各业尤其是公共服务领域有着广阔的应用前景。
以下是大数据在各行业和组织中的应用示例:
(1) 大数据应用案例:教育行业
现在,大数据分析已经应用于各个行业,特别是在美国的公共教育领域。 如图所示,它已成为教学改革的重要力量。
(2)大数据应用案例:生活娱乐
新华社新媒体中心在新浪微博上捕获了45.5万条提及“爸爸去哪儿”的原创微博。 并分析了36.7万名独立原创作者用户(不包括疑似喷子账户)和超过1300万条用户微博帖子。 以及近亿条关系进行数据分析。 事实证明:《爸爸去哪儿》成了名副其实的“口碑王”
(3)大数据应用案例:电商行业
在电商行业,利用大数据技术可以及时了解有多少新客户在多少天内进行了两次回购。 还可以清楚地知道不同类别客户的复购周期是多少天,为企业实施精准营销打下坚实的基础。 例如,企业可以利用大数据产生的信息,在适当的时间针对不同类别的客户进行促销活动,为企业带来收入和利润。
大数据技术的应用前景非常广阔。 当前,我国正走在全面建设小康社会的征程上。 工业化、信息化、城镇化、农业现代化任务十分繁重。 建设下一代信息基础设施,发展现代信息技术产业体系,完善信息安全体系,推进信息网络化。 技术的广泛应用是四个现代化同步发展的保证。 大数据分析对于我们深入了解世界国情、把握规律、实现科学发展、做出科学决策具有重要意义。 我们必须重新认识数据的重要价值。