更新时间:2024-04-30 08:13:48作者:佚名
你好!
关于大数据有很多东西需要学习。 需要从基础开始,由浅入深,循序渐进,才能扎实掌握大数据技术。
学习大数据的基础是Java语言和Linux操作系统。 学习顺序没有特定的顺序。 一般来说,你会选择先开始学习Java语言。 由于大数据相关软件基本运行在Linux操作系统上,因此Linux系统也是大数据必学的基础。 要想深入学习真正的大数据技术,需要扎实的掌握。
学习了这两个基础之后,下一步就是大数据相关技术:
1、
这是一个流行的大数据处理平台,几乎已经成为大数据的代名词,所以这是必须学习的。 它包括几个组件:HDFS 和 YARN。 HDFS是存储数据的地方。 就像我们电脑的硬盘一样,上面存储着文件。 它处理和计算数据。 它的特点之一是,无论数据有多大,只要是在短时间内就能跑完数据,但时间可能不会很快,所以称为数据批处理。
YARN是体现平台理念的重要组件。 凭借其大数据生态系统,其他软件可以在其上运行。 这样我们就可以更好的利用HDFS大存储的优势,节省更多的资源。 例如,我们不再需要构建单独的系统。 如果您有 Spark 集群,只需直接在现有的纱线上运行它即可。
事实上,如果你了解这些组件,你就可以处理大数据。 然而,你可能还不清楚“大数据”到底有多大。 听我说,别担心这个。 未来,当你开始工作时,你会在很多场景中遇到几十TB/几百TB的大规模数据。 到时候你就不再觉得大数据好。 数据越大,你就越头疼。 当然大数据技术是学什么的,不要害怕处理如此大规模的数据,因为这就是你的价值所在。 让那些做php、html5、DBA的人羡慕不已。
2、
这是万能的,安装HA的时候会用到它,以后Hbase也会用到它。 一般用来存储一些协作信息。 这个信息比较小,一般不超过1M。 使用它的软件取决于它。 对于我们个人来说,只需正确安装并让它正常运行即可。 就是这样。
3.MySQL
mysql数据库,一个小型的数据处理工具,后面安装hive的时候会用到。 mysql需要掌握到什么水平? 您可以在Linux上安装它,运行它,配置简单的权限,更改root密码,并创建数据库。 这里主要是学习SQL的语法,因为hive的语法和这个很相似。
4.斯库普
这是用来将数据从Mysql导入到其中的。 当然,你也可以跳过这个,直接将Mysql数据表导出成文件,然后放到HDFS上。 当然,在生产环境中使用Mysql时要注意Mysql的压力。
5.蜂巢
这东西对于懂SQL语法的人来说简直是神器。 它可以让你处理大数据变得非常简单,你将不再需要为编写程序而烦恼。 有人说猪? 几乎就像猪一样。 你只需要掌握一项。
6.奥兹
既然你学会了Hive,相信你一定需要这个东西。 它可以帮助您管理 Hive 或 Spark 脚本。 它还可以检查您的程序是否正确执行。 如果发生错误,它会向您发送警报并帮助您重试程序。 最重要的是它还可以帮助你配置任务依赖关系。 相信你一定会喜欢的,不然看着大量的脚本和密密麻麻的crond你会觉得很屎。
7. 数据库
这是生态系统中的NOSQL数据库。 其数据以key和value的形式存储,并且key是唯一的,因此可以用于重复数据删除。 与MYSQL相比,它可以存储大得多的数据量。 。 因此,常被用作大数据处理完成后的存储目的地。
8.卡夫卡
这是一个比较好用的队列工具。 排队有什么用? 你知道买票必须排队吗? 如果数据太多了,也需要排队处理,这样和你合作的其他同学就不会尖叫了,你为什么给我这么多数据(比如几百G的文件),我怎么办?处理它? 不要怪他,因为他不是搞大数据的,你可以告诉他,我把数据放到队列里,你用的时候一一拿,这样他就别再抱怨了,立刻就走来优化他的程序。
因为如果他处理不了那就是他的问题了。 不是你提出的问题。 当然,我们也可以使用这个工具来存储在线实时数据或者存入HDFS。 这时候可以配合一个叫Flume的工具来使用,它是专门用来提供数据的简单处理,编写各种Data接收器(比如Kafka)。
9.火花
它是用来弥补数据处理速度上的缺点的。 其特点是将数据加载到内存中进行计算,而不是读取速度极慢的硬盘。 它特别适合迭代运算大数据技术是学什么的,所以算法主播特别喜欢它。 它是用scala编写的。 它可以用Java语言或Scala来操作,因为它们都使用JVM。
当你掌握了这些技术英语作文,你基本上就可以成为一名专业的大数据开发工程师了。 之后,你可以进一步提高你的语言、机器学习等知识,以便你在以后的工作中变得越来越好。
大数据开发主要涉及学习编程语言和大数据处理技术。 关于如何学习,下面我给大家分享一个学习路线。 希望对您有所帮助。 知乎专栏也供大家参考学习:
「原创内容」