高錯誤率長序列基因組數據敏感序列識別并行算法
【摘要】:為解決現有算法難以有效識別高錯誤率長序列基因組數據中敏感序列的問題,提出一種CPU和GPU協同計算的并行識別算法CGPU-F3SR。該算法通過將基因組數據中的長序列分割為多條短序列,引入布隆過濾機制,以免對分割短序列的重復計算;采用k-mer編碼策略并行地提取所有短序列中的錯誤信息,并提出改進的序列相似度計算模型,以提高識別準確率;采取CPU和GPU協同并行加速短序列相似度計算,以提升識別效率;進而高效、準確地識別出高錯誤率長序列基因組數據中的2類敏感序列——短串聯重復序列和疾病相關序列。在長度為100~400 kbp的長序列基因組數據中敏感序列識別的實驗結果表明,與其他同類并行識別算法相比,所提CPU/GPU并行識別算法CGPU-F3SR識別準確率和查準率分別平均提升7.77%和43.07%,假陽性率平均降低7.41%,識別吞吐量平均提高2.44倍。
【相似文獻】 | ||
|
|||||||||||||||||||||||||||||||
|
|
|||||||||
|
|
|||||||||||||||||||||||||||||||||||||||||
|