JAVA开发搞了一年多的大数据,究竟干了点啥( 六 )

hadoop distcp -update hdfs://主机名/源数据路径 hdfs://主机名/目标数据路径,这是将数据表从hdfs的一个文件目录下复制到指定位置,同样,flinkX也支持类似的功能 。
? 总之,方案不少,具体场景具体分析,数据同步的问题也有很多,比如上游数据源断了,导致目标日期的数据没有过来;使用的同步的服务器宕机了,那时候就需要详细的排查了,尽快将数据同步修复 。
4.任重道远,仍需砥砺前行? 我清楚,要是彻头彻尾的搞明白大数据,除了会写写复杂SQL是远远不够的,我记着有些归类中将ES和Kafka也作为大数据开发的范畴,当然,这两块的知识点我也是有所涉猎的,只不过是Java后端代码中使用的,也许这两块还有其他用法可以用于大数据,比如结合着Scala语言使用 。Scala语言是函数式编程,因为在Java方向已经沉浸多年,所以看了几天scala语言的语法也没有那么抗拒,都大致了解了下,但是了解语法和实际使用这门语言进行工作上的开发又是另外一回事,由于各种原因没有深入的去研究下去略表遗憾 。总的来讲,目前我还是比较喜欢java的,但是因为最近这一年里也做了不少大数据相关工作,所以总觉得不为它写一篇博客总归对不起这一年的收获,所以还是找个地方记录下来吧,将来有一天如果我在java方向钻研透了,想再探索大数据的广袤无垠时,我想,我会认认真真系系统统的去学一遍,像scala,spark,flink,hadoop他们深层次技术,我一定要每一个都好好品尝下 。
【JAVA开发搞了一年多的大数据,究竟干了点啥】

经验总结扩展阅读