針對(duì)Hadoop異構(gòu)集群節(jié)點(diǎn)性能的數(shù)據(jù)分配策略
林常航 郭文忠 陳煌寧
當(dāng)前Hadoop的實(shí)現(xiàn)主要針對(duì)同構(gòu)集群,假設(shè)任務(wù)處理的數(shù)據(jù)基本是本地的.然而,實(shí)際應(yīng)用中集群多為異構(gòu).這暴露出現(xiàn)有的數(shù)據(jù)分配策略對(duì)數(shù)據(jù)局部性考慮的不足,其產(chǎn)生的不必要數(shù)據(jù)傳輸耗費(fèi)了大量的帶寬資源和傳輸時(shí)間.通過(guò)結(jié)合Hadoop中數(shù)據(jù)放置與任務(wù)執(zhí)行的關(guān)系,按不同節(jié)點(diǎn)對(duì)不同任務(wù)的執(zhí)行能力進(jìn)行數(shù)據(jù)分配.在考慮異構(gòu)集群中節(jié)點(diǎn)固有性能的情況下,提出一種機(jī)架間基于任務(wù)特性和節(jié)點(diǎn)計(jì)算能力的數(shù)據(jù)分配策略.該分配策略提高了對(duì)數(shù)據(jù)局部性的關(guān)注,使每個(gè)節(jié)點(diǎn)都盡可能只訪問(wèn)本地?cái)?shù)據(jù).通過(guò)實(shí)驗(yàn)可知,該策略可以有效地縮短作業(yè)執(zhí)行時(shí)間,提高時(shí)效性;同時(shí)提高數(shù)據(jù)局部性,減少網(wǎng)絡(luò)數(shù)據(jù)傳輸,避免擁塞;最后,該分配策略還具有較好的穩(wěn)定性.
針對(duì)Hadoop異構(gòu)集群節(jié)點(diǎn)性能的數(shù)據(jù)分配策略
