基礎面試題，Java校招筆試題目

 長沙達內(nèi)教育  2022-04-09 23:07:01  9

基礎面試題，Java校招筆試題目,1.hive表關聯(lián)查詢，如何解決數(shù)據(jù)傾斜的問題?傾斜原因：map輸出數(shù)據(jù)按keyHash的分配到reduce中，由于key分布不均勻、業(yè)務數(shù)據(jù)本

課程價格請咨詢

上課時段：授課校區(qū)：

詳細介紹

1.hive表關聯(lián)查詢，如何解決數(shù)據(jù)傾斜的問題?

傾斜原因：

map輸出數(shù)據(jù)按keyHash的分配到reduce中，由于key分布不均勻、業(yè)務數(shù)據(jù)本身的特、建表時考慮不周、等原因造成的reduce上的數(shù)據(jù)量差異過大。

1)、key分布不均勻;

2)、業(yè)務數(shù)據(jù)本身的特性;

3)、建表時考慮不周;

4)、某些SQL語句本身就有數(shù)據(jù)傾斜;

如何避免：對于key為空產(chǎn)生的數(shù)據(jù)傾斜，可以對其賦予一個隨機值。

解決方案

1>.參數(shù)調(diào)節(jié)：

hive.map.aggr=true

hive.groupby.skewindata=true

有數(shù)據(jù)傾斜的時候進行負載均衡，當選項設定位true,生成的查詢計劃會有兩個MRJob。第一個MRJob中，Map的輸出結果集合會隨機分布到Reduce中，每個Reduce做部分聚合操作，并輸出結果，這樣處理的結果是相同的GroupByKey有可能被分發(fā)到不同的Reduce中，從而達到負載均衡的目的；第二個MRJob再根據(jù)預處理的數(shù)據(jù)結果按照GroupByKey分布到Reduce中（這個過程可以保證相同的GroupByKey被分布到同一個Reduce中），最后完成最終的聚合操作。

2>.SQL語句調(diào)節(jié)：

1)、選用joinkey分布最均勻的表作為驅(qū)動表。做好列裁剪和filter操作，以達到兩表做join的時候，數(shù)據(jù)量相對變小的效果。

2)、大小表Join：

使用mapjoin讓小的維度表（1000條以下的記錄條數(shù)）先進內(nèi)存。在map端完成reduce.

4)、大表Join大表：

把空值的key變成一個字符串加上隨機數(shù)，把傾斜的數(shù)據(jù)分到不同的reduce上，由于null值關聯(lián)不上，處理后并不影響最終結果。

5)、countdistinct大量相同特殊值:

countdistinct時，將值為空的情況單獨處理，如果是計算countdistinct，可以不用處理，直接過濾，在最后結果中加1。如果還有其他計算，需要進行groupby，可以先將值為空的記錄單獨處理，再和其他計算結果進行union。

2.請談一下hive的特點是什么？hive和RDBMS有什么異同？

hive是基于Hadoop的一個數(shù)據(jù)倉庫工具，可以將結構化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表，并提供完整的sql查詢功能，可以將sql語句轉換為MapReduce任務進行運行。其優(yōu)點是學習成本低，可以通過類SQL語句快速實現(xiàn)簡單的MapReduce統(tǒng)計，不必開發(fā)專門的MapReduce應用，十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。

hive存儲的數(shù)據(jù)量比較大，適合海量數(shù)據(jù)，適合存儲軌跡類歷史數(shù)據(jù)，適合用來做離線分析、數(shù)據(jù)挖掘運算，事務性較差，實時性較差

rdbms一般數(shù)據(jù)量相對來說不會太大，適合事務性計算，實時性較好，更加接近上層業(yè)務

hive的計算引擎是hadoop的mapreduce，存儲是hadoop的hdfs文件系統(tǒng)

rdbms的引擎由數(shù)據(jù)庫自己設計實現(xiàn)例如mysql的innoDB，存儲用的是數(shù)據(jù)庫服務器本地的文件系統(tǒng)

hive由于基于hadoop所以存儲和計算的擴展能力都很好，

rdbms在這方面比較弱，比如orcale的分表和擴容就很頭疼

hive表格沒有主鍵、沒有索引、不支持對具體某一行的操作，適合對批量數(shù)據(jù)的操作，不支持對數(shù)據(jù)的update操作，更新的話一般是先刪除表然后重新落數(shù)據(jù)

rdbms事務性強，有主鍵、索引，支持對具體某一行的增刪改查等操作

hive的SQL為HQL，與標準的RDBMS的SQL存在有不少的區(qū)別，相對來說功能有限

rdbms的SQL為標準SQL，功能較為強大。

3.Multi-groupby是hive的一個非常好的特性，請舉例說明？

fromA

insertoverwritetableB

selectA.a,count(distinctA.b)groupbyA.a

insertoverwritetableC

selectA.c,count(distinctA.b)groupbyA.c

4.請說明hive中SortBy，OrderBy，ClusterBy，DistrbuteBy各代表什么意思

orderby：會對輸入做全局排序，因此只有一個reducer（多個reducer無法保證全局有序）。只有一個reducer，會導致當輸入規(guī)模較大時，需要較長的計算時間。

sortby：不是全局排序，其在數(shù)據(jù)進入reducer前完成排序。

distributeby：按照指定的字段對數(shù)據(jù)進行劃分輸出到不同的reduce中。

clusterby：除了具有distributeby的功能外還兼具sortby的功能。

5.簡要描述數(shù)據(jù)庫中的null，說出null在hive底層如何存儲，并解釋selecta.*fromt1aleftouterjoint2bona.id=b.idwhereb.idisnull;語句的含義

null與任何值運算的結果都是null,可以使用isnull、isnotnull函數(shù)指定在其值為null情況下的取值。

null在hive底層默認是用'N'來存儲的，可以通過altertabletestSETSERDEPROPERTIES('serialization.null.format'='a');來修改。

這段語句目的是查詢出t1表中與t2表中id相等的所有信息。

6.寫出hive中split、coalesce及collect_list函數(shù)的用法（可舉例）

split將字符串轉化為數(shù)組。

split('a,b,c,d',',')==>["a","b","c","d"]

COALESCE(Tv1,Tv2,…)返回參數(shù)中的第一個非空值；如果所有值都為NULL，那么返回NULL。

collect_list列出該字段所有的值，不去重selectcollect_list(id)fromtable;

7.寫出將text.txt文件放入hive中test表‘2016-10-10’分區(qū)的語句，test的分區(qū)字段是l_date。

LOADDATALOCALINPATH'/your/path/test.txt'OVERWRITEINTOTABLEtestPARTITION(l_date='2016-10-10')

8.請把下一語句用hive方式實現(xiàn)？

SELECta.key,a.value

FROMa

WHERea.keynotin(SELECtb.keyFROMb)

selecta.key,a.valuefromawherea.keynotexists(selectb.keyfromb)

　以上就是長沙達內(nèi)教育java培訓機構的小編針對“基礎面試題，Java校招筆試題目”的內(nèi)容進行的回答，希望對大家有所幫助，如有疑問，請在線咨詢，有專業(yè)老師隨時為你服務。

培訓啦提醒您：交易時請核實對方資質(zhì)，對于過大宣傳或承諾需謹慎！任何要求預付定金、匯款等方式均存在風險，謹防上當。

軟件測試培訓

基礎面試題，Java校招筆試題目

詳細介紹

相關推薦查看全部 

自學IT難嗎？是否

Java架構師與開發(fā)

Java中的方法重載

Java新手入門指南

Java零基礎自學好

學Java需要培訓？

Java開發(fā)常用框架

學編程哪家培訓機

Java速成學習，這

Java培訓教程：Ja

Java語言落伍了？

Java零基礎學視頻

web前端視頻教程

梳理目前JavaWeb

程序員入門學習課

想要入行開發(fā)，學

Java編程中的基礎

作為Java程序員讓

學Java編程很難么

Java學習資料整理

基礎面試題，Java校招筆試題目

詳細介紹

相關推薦 查看全部 

基礎面試題，Java校招筆試題目

相關推薦查看全部 