这个要分好几块来讲,首先我要说明的是大数据项目也是要有很多依赖的模块的 。每个模块的软件不一样,下面分别聊一下 。
一、大数据处理
这个是所谓大数据项目中最先想到的模块 。主要有spark,hadoop , es,kafka , hbase , hive等 。
当然像是flume,sqoop也都很常用 。
这些软件主要是为了解决海量数据处理的问题 。软件很多,我只列几个经典的,具体可以自行百度 。
二、机器学习相关
大部分大数据项目都和机器学习相关 。因此会考虑到机器学习的一些软件,比如说sklearn,spark的ml,当然还有自己实现的代码 。
三、web相关技术
大部分项目也都跑不了一个web的展示,因此web就很重要的,java的ssh,python的django都可以,这个看具体的项目组习惯了 。
四、其它
还有一些很常用的东西,个人感觉不完全算是大数据特定使用范围 。反正我在做大数据项目的时候也都用到了 。
比如说数据存储:redis,mysql 。
数据可视化:echart,d3js 。
图数据库:neo4j 。
再来说说大数据平台的软件或者工具:
1、 数据库,大数据平台类,星环 , 做Hadoop生态系列的大数据平台公司 。Hadoop是开源的 , 星环主要做的是把Hadoop不稳定的部分优化,功能细化,为企业提供Hadoop大数据引擎及数据库工具 。
2、 大数据存储硬件类,浪潮,很老牌的IT公司,国资委控股,研究大数据方面的存储 , 在国内比较领先 。
3、 云计算,云端大数据类,阿里巴巴,明星产品-阿里云 , 与亚马逊AWS抗衡 , 做公有云、私有云、混合云 。实力不差 , 符合阿里巴巴的气质,很有野心 。
4、 数据应用方面这个有很多,比如帆软旗下的FineReport报表系统和FineBI大数据分析平台等 。
帆软是商业智能和数据分析平台提供商,从报表工具到商业智能,有十多年的数据应用的底子,在这个领域很成熟,目前处于快速成长期 , 但是很低调,是一家有技术有实力而且对客户很真诚的公司 。
1、 数据库 , 大数据平台类:
星环 , 做Hadoop生态系列的大数据底层平台公司 。Hadoop是开源的,星环主要做的是把Hadoop不稳定的部分优化,功能细化,为企业提供Hadoop大数据引擎及数据库工具 。
2、 云计算,云端大数据类,
阿里巴巴,明星产品-阿里云,与亚马逊AWS抗衡,做公有云、私有云、混合云 。实力不差 , 符合阿里巴巴的气质 , 很有野心 。
3、 大数据决策平台:
帆软 。帆软是商业智能和数据分析平台提供商,从报表工具到商业智能BI,有十多年的数据应用的底子,在这个领域很成熟,但是很低调 。旗下的报表产品FineReport和商业智能FineBI值得推荐 。
Finereport:各方面都很成熟的一款大数据软件,适用于对海量数据的处理与分析 。比较符合中国人数据分析的习惯和逻辑 , 用不惯国外软件的数据分析师建议使用 。
这是一个商用报表软件,企业级应用,一定程度上可替代Excel,如业务系统报表,数据分析报表,财务报表 。可与OA , ERP , CRM集成 。主要两大核心是填报和数据展示 。懂点java的话可以做开发,比如我同事用这个开发了一个公司内部的考试系统 。
FineBI
个人最常用的BI分析工具,用习惯了觉得这个工具很简单很傻瓜 。操作类似Tableau,拖拽分析字段即可生成图表,图表是自动推荐的 , 精确智能 。基本不需要写函数,内置各种计算功能,数据过滤筛选条件等 。内置一些基本的回归、预测数据挖掘功能,制作可视化仪表板很方便 。个人使用免费 。
可以看我之前写的一篇文章:李启方:这可能是今年最值得推荐的数据分析工具
4、 大数据存储硬件类:
【大数据平台的软件有哪些,2022大数据风控了能下哪些平台】
浪潮 , 很老牌的IT公司,国资委控股 , 研究大数据方面的存储,在国内比较领先 。