一本到高清DVD91日韩伦理影院|无码AV中文一区国产强奸三级簧片|日韩无码色哟哟午夜福利国产一区|丁香激情五月亚洲亚洲影院123区|五月天综合久久国产精品free|亚洲免费专区日韩热在线视频|黄片看视频免费久久偷拍的视频|五月婷桃色网日韩国产一级

    1. <rt id="6skql"></rt>
        1. <form id="6skql"></form>
          <sub id="6skql"></sub>

            <rt id="6skql"></rt>

            服務(wù)熱線02152235399
            當(dāng)前位置:博客 > 生物信息

            MapSplice參數(shù)測(cè)試總結(jié)報(bào)告

            時(shí)間:2018-10-19    |    閱讀量:4232



            引言

            1.1編寫(xiě)目的

            進(jìn)行該測(cè)試以及撰寫(xiě)此報(bào)告有以下幾個(gè)目的

            1.通過(guò)對(duì)測(cè)試結(jié)果的分析,得到對(duì)軟件質(zhì)量的評(píng)價(jià);

            2.分析在Illumina測(cè)序平臺(tái)下,MapSplice能夠獲得最大junction數(shù)目以及mapping率的參數(shù);

            3.分析在ionproton測(cè)序平臺(tái)下,MapSplice能夠獲得最大junction數(shù)目以及mapping率的參數(shù);

            4.嘗試找到參數(shù)與測(cè)序長(zhǎng)度的經(jīng)驗(yàn)性關(guān)系。

            1.2背景

            MapSplice是一個(gè)RNA-seq數(shù)據(jù)分析工具,其核心程序是bowtie.可以快速的確認(rèn)exon-exon剪切拼接。主要功能和Tophat差異不大。

            Tophat不同的是,MapSplice并沒(méi)有針對(duì)某一種測(cè)序平臺(tái)而開(kāi)發(fā),所以對(duì)于75bp以下的短序列以及75bp以上的長(zhǎng)序列reads都可以使用。目前,全球最大的癌癥研究項(xiàng)目TCGA(The Cancer Genome Atlas)正在主要推崇使用這個(gè)軟件。

            Ionproton屬于二代測(cè)序中較新的平臺(tái),可以認(rèn)為是二點(diǎn)五代測(cè)序平臺(tái),其測(cè)序長(zhǎng)度平均在100個(gè)bp以上。目前我們公司使用的就是這個(gè)平臺(tái)的進(jìn)行二代測(cè)序分析。

            鑒于之前使用Tophat進(jìn)行參數(shù)優(yōu)化以后發(fā)現(xiàn)結(jié)果并不是很理想,所以決定跟換軟件進(jìn)行測(cè)試,尋找更好的結(jié)果。因此,提出此次工作內(nèi)容,探索更好的參數(shù)配置,提高mapping率以及junction數(shù)目。

            1.3用戶(hù)群

            主要讀者:公司研發(fā)部,公司管理人員。

            其他讀者:項(xiàng)目及銷(xiāo)售相關(guān)人員。

            1.4 數(shù)據(jù)對(duì)象:

            Illumina數(shù)據(jù)

            Ionproton數(shù)據(jù)

            Illumina-lowliguanhu human

            Ionproton-low: congsongfeng human

            1.5 測(cè)試階段

            軟件測(cè)試

            1.6測(cè)試工具

            Samtools version0.1.18

            IGV version2.3.18;

            Awk;

            1.7 參考資料

            MapSplice userguide

            Wang K, Singh D, Zeng Z, et al. MapSplice: accurate mapping of RNA-seq reads for splice junction discovery[J]. Nucleic acids research, 2010, 38(18): e178-e178.

            Trapnell C, Pachter L, Salzberg S L. TopHat: discovering splice junctions with RNA-Seq[J]. Bioinformatics, 2009, 25(9): 1105-1111.

            測(cè)試概要

            關(guān)于MapSplice參數(shù)測(cè)試從2013919日開(kāi)始到2013926日結(jié)束,共持續(xù)7天,一共25個(gè)測(cè)試用例。

            主要測(cè)試內(nèi)容如下:

            1. 軟件安裝以及依賴(lài)性測(cè)試。

            2. 文件分割以后查找junction數(shù)目以及不進(jìn)行分割查找junction數(shù)目的差異大小,能否接受,為今后并行化文件回帖提供依據(jù)。

            3. Segment參數(shù)進(jìn)行優(yōu)化工作。

            4. 針對(duì)Illumina測(cè)序平臺(tái)數(shù)據(jù)以及ionproton測(cè)序平臺(tái)數(shù)據(jù)的mapping能力差異。

            5. 簡(jiǎn)要測(cè)試MapSplice檢測(cè)融合基因的能力

            2.1工作計(jì)劃進(jìn)展

            測(cè)試內(nèi)容

            計(jì)劃開(kāi)始時(shí)間

            實(shí)際開(kāi)始時(shí)間

            計(jì)劃完成時(shí)間

            實(shí)際完成時(shí)間

            工作完成情況

            軟件安裝

            2013919

            2013919

            2013919

            2013923

            本地安裝受阻,服務(wù)器端安裝正常。

            軟件依賴(lài)性查找

            2013924

            2013924

            2013924

            2013924

            順利

            不同測(cè)序平臺(tái)回帖能力

            2013924

            2013924

            2013924

            2013924

            順利

            文件分割與否回帖差異

            2013925

            2013925

            2013925

            2013925

            順利

            Segment參數(shù)優(yōu)化

            2013926

            2013926

            2013926

            2013926

            順利

            融合基因檢測(cè)

            2013926

            2013926

            2013927

            2013927

            順利

            2.2測(cè)試執(zhí)行

            此次測(cè)試嚴(yán)格按照項(xiàng)目計(jì)劃和測(cè)試計(jì)劃執(zhí)行,按時(shí)完成了測(cè)試計(jì)劃規(guī)定的測(cè)試對(duì)象的測(cè)試。針對(duì)測(cè)試計(jì)劃制定規(guī)定的測(cè)試策略,依據(jù)測(cè)試計(jì)劃和測(cè)試用例,將網(wǎng)絡(luò)數(shù)據(jù)以及我們觀測(cè)的關(guān)鍵參數(shù)進(jìn)行了完整的測(cè)試。

            2.3測(cè)試用例

            2.3.1功能性

            1.測(cè)試主要實(shí)現(xiàn),包括較高的mapping率以及較多的junction數(shù)目。

            2.測(cè)試junction數(shù)目與文件分割與否的相關(guān)性大小。

            測(cè)試環(huán)境

            3.1軟硬件環(huán)境

            硬件環(huán)境

            服務(wù)器

            硬件配置

            CPUIntel Xeon 2.66GHz *20

            Memory90GB

            HD29TB

            軟件配置

            OSFedora release 14,Ubuntu 12.10

            MapSplice 2.0.8

            網(wǎng)絡(luò)環(huán)境

            100M LAN

            測(cè)試結(jié)果

            4.1 軟件安裝

            安裝中,我們使用的軟件版本是MapSplice 2.1.5。在本地進(jìn)行測(cè)試的時(shí)候由于當(dāng)時(shí)未知的軟件依賴(lài)關(guān)系,并沒(méi)有安裝成功。軟件提示報(bào)錯(cuò)為本地bowtie沒(méi)有在系統(tǒng)中找到,于是在本地安裝了與軟件要求對(duì)應(yīng)的bowtie 0.12.7 。本地可以使用bowtie,但是MapSplice仍然報(bào)這個(gè)錯(cuò)誤,于是放棄在本地進(jìn)行安裝。在服務(wù)器的安裝很順利,很快就測(cè)試通過(guò)。

            4.2文件分割mapping與未分割mapping

            進(jìn)行文件分割運(yùn)行的最主要的考慮是為了嘗試能否進(jìn)行分布式的計(jì)算,所以我們?cè)谶@一部分的工作中將文件分割成4份分開(kāi)進(jìn)行運(yùn)算,然后將這4個(gè)文件運(yùn)行出的junction數(shù)目相加比較與未分割情況下的junction數(shù)目差異。為了得到更加準(zhǔn)確的效果,在本次測(cè)試中,我們使用了3個(gè)測(cè)序深度的ionproton測(cè)序平臺(tái)得出的reads,分別是20萬(wàn)個(gè)reads,200萬(wàn)個(gè)reads以及整個(gè)文件(一共33926644個(gè)reads)進(jìn)行分析。文件統(tǒng)一分割為4個(gè)文件。測(cè)試結(jié)果如下:

            nonsplit

            split1

            split2

            split3

            split4

            差值

            Ration(%)

            junction數(shù)

            18601

            4891

            4356

            4306

            4029

            1019

            5.4782

            20萬(wàn)個(gè)reads運(yùn)行所得結(jié)果及差值

            nonsplit

            split1

            split2

            split3

            split4

            差值

            Ratio(%)

            junction數(shù)

            241668

            53000

            62933

            49905

            60191

            15639

            6.47127

            200萬(wàn)個(gè)reads運(yùn)行所的結(jié)果及差值

            nonsplit

            split1

            split2

            split3

            split4

            差值

            Ratio(%)

            junction數(shù)

            4965976

            1093096

            1040558

            1288306

            1192253

            351763

            7.083462

            所有reads運(yùn)行所有的結(jié)果及差值

            通過(guò)上述結(jié)果可以知道分開(kāi)以后與未分開(kāi)時(shí)相差大約5%以上(占未分開(kāi)的junction數(shù)目)所以可以認(rèn)為并不是很適合將reads分開(kāi)以后進(jìn)行mampping。

            4.3 segment參數(shù)優(yōu)化

            由于在Tophat參數(shù)探索的過(guò)程中,我們通過(guò)分析發(fā)現(xiàn)在所有參數(shù)中,segment_length是對(duì)junction影響最顯著的參數(shù),所以我們?cè)趯?duì)MapSplice進(jìn)行分析時(shí),主要也是分析這個(gè)參數(shù)。在測(cè)試過(guò)程中我們發(fā)現(xiàn)當(dāng)這個(gè)參數(shù)大于30的時(shí)候就會(huì)報(bào)錯(cuò),而軟件參數(shù)中segment_length的下限值限定為18,軟件說(shuō)明中推薦對(duì)于50bp以上的reads文件,建議使用25這個(gè)長(zhǎng)度,而根據(jù)文獻(xiàn)中算法設(shè)計(jì)的思路可以知道,當(dāng)這個(gè)數(shù)據(jù)越大的時(shí)候,整個(gè)junction的敏感度就會(huì)越低,而對(duì)應(yīng)的程序運(yùn)行時(shí)間就會(huì)越短,與之相反,當(dāng)這個(gè)數(shù)據(jù)越小的時(shí)候,整個(gè)junction的敏感度就越高,而對(duì)應(yīng)程序的運(yùn)行時(shí)間就會(huì)越長(zhǎng)。在本次測(cè)試中,我們對(duì)這個(gè)數(shù)值從1828進(jìn)行了抽樣實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如下:


            segment_length參數(shù)測(cè)試

            seg_length

            18

            19

            20

            22

            28

            junction_numbers

            63291

            63498

            62610

            60430

            56040

            threads

            13

            13

            20

            13

            13

            time

            1:07:45

            31:15

            13:15

            20:54

            12:12

            raito

            12.6582

            12.6996

            12.522

            12.086

            11.208

            time_per_thread

            312.6923

            144.7692308

            39.75

            96.46154

            56.30769

            按照>10KB都過(guò)濾掉

            18

            19

            20

            22

            28

            junctions_filted

            58266

            58359

            57624

            55556

            51448

            junction_numbers

            63291

            63498

            62610

            60430

            56040

            conseved_ratio

            92.06048

            91.90683171

            92.03642

            91.93447

            91.80585

            ratio

            11.6532

            11.6718

            11.5248

            11.1112

            10.2896

            按照<20bp的都過(guò)濾掉

            18

            19

            20

            22

            28

            junctions_filted

            63269

            63482

            62589

            60412

            56023

            junction_numbers

            63291

            63498

            62610

            60430

            56040

            conseved_ratio

            99.96524

            99.97480236

            99.96646

            99.97021

            99.96966

            ratio

            12.6538

            12.6964

            12.5178

            12.0824

            11.2046

            按照<20bp以及>10Kb的都過(guò)濾掉

            18

            19

            20

            22

            28

            junctions_filted

            58244

            58343

            57603

            55538

            51431

            junction_numbers

            63291

            63498

            62610

            60430

            56040

            conseved_ratio

            0.920257

            0.918816341

            0.920029

            0.919047

            0.917755

            ratio

            11.6488

            11.6686

            11.5206

            11.1076

            10.2862

            mapping_ratio

            80.75

            79.9

            78.08

            73.94

            75.52

            real_junction_ratio

            14.42576

            14.60400501

            14.75487

            15.02245

            13.6205

            segment_length數(shù)值與junction數(shù)目關(guān)系表(以上ratio省略%

            從上述表格中可以看出對(duì)于不同的segment_length而言,junction數(shù)目的百分比確實(shí)是有變化的,總體趨勢(shì)是segment_length越長(zhǎng),junction的數(shù)目就越少,由于RNA-seq回帖率與測(cè)序深度正相關(guān)的關(guān)系,我們可以推測(cè)對(duì)于更多數(shù)目的數(shù)據(jù)而言,這個(gè)數(shù)值會(huì)有提高。在數(shù)據(jù)記錄中,我們同時(shí)也記錄了任務(wù)運(yùn)行的總時(shí)間,與文獻(xiàn)符合的是,segment_length長(zhǎng)度越短,運(yùn)行時(shí)間就會(huì)越低,而且我們發(fā)現(xiàn)時(shí)間增長(zhǎng)的速度是很夸張的。當(dāng)segment_length28的時(shí)候,運(yùn)行時(shí)間是12分鐘12秒,而當(dāng)segment_length18的時(shí)候,運(yùn)行時(shí)間是1小時(shí)745秒。可以看出這個(gè)時(shí)間差是很大的。綜考慮我們認(rèn)為如果有需要,取2022都是不錯(cuò)的選擇。

            4.4融合基因檢測(cè)參數(shù)測(cè)試

            本實(shí)驗(yàn)中,我們主要檢測(cè)了檢測(cè)融合基因以及檢測(cè)junction之間的關(guān)系。我們的檢測(cè)了在尋找融合基因情況下,junction數(shù)目的變化,全部結(jié)果如下所示:

            指定參數(shù)non_canonical_fusion

            500000

            seg_length

            18

            19

            20

            22

            28

            junction_numbers

            39786

            40269

            40203

            39450

            未測(cè)試

            threads

            20

            20

            23

            20

            未測(cè)試

            time(min)

            13:34

            按照>10KB都過(guò)濾掉

            18

            19

            20

            22

            28

            junctions_filted

            36952

            37399

            37361

            36621

            未測(cè)試

            junction_numbers

            39786

            40269

            40203

            39450

            未測(cè)試

            conseved_ratio

            92.87689

            92.87293

            92.93088

            92.8289

            ratio

            7.3904

            7.4798

            7.4722

            7.3242

            按照<20bp的都過(guò)濾掉

            18

            19

            20

            22

            28

            junctions_filted

            39775

            40257

            40191

            39440

            未測(cè)試

            junction_numbers

            39786

            40269

            40203

            39450

            未測(cè)試

            conseved_ratio

            99.97235

            99.9702

            99.97015

            99.97465

            ratio

            7.955

            8.0514

            8.0382

            7.888

            按照<20bp以及>10Kb的都過(guò)濾掉

            18

            19

            20

            22

            28

            junctions_filted

            36941

            37387

            37349

            36611

            未測(cè)試

            junction_numbers

            39786

            40269

            40203

            39450

            未測(cè)試

            conseved_ratio

            92.84924

            92.84313

            92.90103

            92.80355

            ratio

            7.3882

            7.4774

            7.4698

            7.3222

            mapping_ratio

            41.7

            41.8

            41.54

            40.92

            未測(cè)試

            real_junction_ratio

            17.71751

            17.88852

            17.98219

            17.89394

            未測(cè)試

            由于之前的測(cè)試,我們考慮的參數(shù)中已經(jīng)放棄了segment_length等于28這個(gè)參數(shù),所以在這一步中,為了節(jié)約計(jì)算資源,我們并沒(méi)有計(jì)算segment_length等于28情況下的測(cè)試數(shù)據(jù)。從上表中可以很明顯的看出當(dāng)檢測(cè)融合基因時(shí),整體數(shù)據(jù)的mapping率明顯下降。因此導(dǎo)致的real_junction_ratio數(shù)目的提升并不能認(rèn)為可能是真的提升。

            五.測(cè)試結(jié)論與討論

            5.1平臺(tái)差異

            通過(guò)查閱已經(jīng)有的資料,我們知道Illumina測(cè)序平臺(tái)和ionproton平臺(tái)最直觀的差別在于后者的平均測(cè)序長(zhǎng)度比前者長(zhǎng);在我們測(cè)試的例子中,Illumina的測(cè)序長(zhǎng)度在50-97個(gè)bp之間,而ionproton的測(cè)序長(zhǎng)度在50235個(gè)bp之間。從此可以看出兩者的最合適參數(shù)應(yīng)該是有差別的。通過(guò)上一次tophat與這一次MapSplice的比較,我們發(fā)現(xiàn),無(wú)論如何提高tophat的參數(shù),我們都很難接近MapSplice使用默認(rèn)參數(shù)下的junction數(shù)目,所以我們認(rèn)為對(duì)于公司ionproton測(cè)序平臺(tái),我們使用MapSplice會(huì)更加適合。而在我們的測(cè)試結(jié)果中,對(duì)于Illumina測(cè)序平臺(tái)測(cè)試時(shí),進(jìn)行單端實(shí)驗(yàn)的結(jié)果如下:

            ionproton_low

            Illumina_low_single_end

            Junction ratio

            17.80055013

            3.478367662

            ionprotonIllumina單端結(jié)果計(jì)算junction百分?jǐn)?shù)

            5.2文件分割測(cè)試

            通過(guò)這個(gè)測(cè)試的結(jié)果,我們可以看出分割前后運(yùn)行得出的junction數(shù)目差距為5%(相比未分割的情況)以上,并且這個(gè)數(shù)目隨著我們的測(cè)序深度的提高而提高。所以從這個(gè)結(jié)果而言,我們認(rèn)為不適合將文件分割進(jìn)行處理。

            5.3segment參數(shù)測(cè)試結(jié)果

            在測(cè)試實(shí)驗(yàn)中,我們發(fā)現(xiàn)segment_length參數(shù)從2818變化的過(guò)程中,總體趨勢(shì)是由少變多變少,整體趨勢(shì)圖如下:

            segment_lengthjunction_ratio關(guān)系圖

            從上圖中可以看出大約在2022的時(shí)候是最好的。在官方說(shuō)明文檔中,作者推薦當(dāng)序列長(zhǎng)度大于50的時(shí)候推薦使用參數(shù)25。下表是segment_length與測(cè)試時(shí)間之間的關(guān)系:

            segment_lengthrunning_time關(guān)系圖

            上圖中,我們計(jì)算時(shí)間是使用實(shí)際計(jì)算總時(shí)間乘以運(yùn)行的CPU數(shù)目。其中在22這個(gè)長(zhǎng)度上時(shí)運(yùn)行的CPU數(shù)目是20個(gè),所以時(shí)間有所波動(dòng),總體而言來(lái)看,在長(zhǎng)度為2028之間時(shí)間變化還是可以接受的,然后當(dāng)長(zhǎng)度繼續(xù)下降的時(shí)候,時(shí)間就開(kāi)始指數(shù)級(jí)的上升的,這一點(diǎn)可以從圖中看出。

            所以,綜合取舍junction率以及運(yùn)行時(shí)間,我們認(rèn)為使用默認(rèn)參數(shù)是可以接受的,但是使用2022也許會(huì)有更好的結(jié)果。

            5.4融合基因檢測(cè)參數(shù)設(shè)置

            在我們的測(cè)試數(shù)據(jù)中,我們可以很明顯的看出在各個(gè)segment_lengh情況下,mapping率都有下降,相比不做這一步檢測(cè),mapping率下降了至少30%,我們一開(kāi)始認(rèn)為是把部分junction的數(shù)據(jù)被認(rèn)為是融合基因,當(dāng)我們檢測(cè)的時(shí)候才發(fā)現(xiàn)實(shí)際情況與我們的預(yù)測(cè)是不符合的。軟件找到的融合基因數(shù)目十分少,并且基本都是跨染色體的。因此我們提出了新的想法,程序在同時(shí)進(jìn)行查找junction以及融合基因的時(shí)候,為了確保計(jì)算時(shí)間不會(huì)超過(guò)單查找junction時(shí)的時(shí)間太多,并且由于查找融合基因是比較消耗計(jì)算資源的,所以程序在查找junction的時(shí)候并沒(méi)有分配過(guò)多的資源,導(dǎo)致了更多的reads沒(méi)有被程序mapping上去,因此我們?cè)诖苏J(rèn)為實(shí)際應(yīng)用中,應(yīng)該將查找融合基因以及查找junction分成兩步分開(kāi)進(jìn)行,如何能夠使得兩步的資源能更加節(jié)省,將是我們接下來(lái)的工作。

            5.5 測(cè)試中的問(wèn)題

            在測(cè)試過(guò)程中我們發(fā)現(xiàn)了一個(gè)有趣的情況,如下圖所示:

            不同segment參數(shù)下查找junction數(shù)目的能力

            上圖中,首先可以看到在參考基因組中這個(gè)部分是有junction的,中間的四個(gè)條帶從上到下依次是長(zhǎng)度為18,19,22,28四個(gè)參數(shù)情況下的對(duì)應(yīng)這個(gè)位置的回帖情況,可以很清楚的看到,在參數(shù)為18,28的時(shí)候是找到了這個(gè)區(qū)域的,但是在中間參數(shù)19,22的情況下,并沒(méi)有回帖到這個(gè)位置,由于這個(gè)部分并不是很短,我們可以認(rèn)為這個(gè)部分在染色體上是唯一的,所以排除了這兩個(gè)參數(shù)情況下回帖到其他地方的可能性,確定這個(gè)部分對(duì)應(yīng)的reads并沒(méi)有回帖上去。因?yàn)椴⒉皇钱?dāng)segment_length變小或變大的情況下才逐漸出現(xiàn)的,所以可以認(rèn)為是隨機(jī)的結(jié)果,這暗示我們?nèi)绻骋淮蔚慕Y(jié)果不是很理想的情況下可以通過(guò)重復(fù)或更改參數(shù)重復(fù)來(lái)提高junction數(shù)目。

            另外在測(cè)試中,我們找到了支持segment_length越短,查找的敏感性就越明顯的圖像證據(jù),如下圖所示:

            不同segment_length下查找junction的敏感性

            上圖中可以看出,在參考基因中,這個(gè)部分是有junction的,而在segment_length19,22,28的時(shí)候,都沒(méi)有找到回帖上,我們認(rèn)為這個(gè)結(jié)果對(duì)于文獻(xiàn)中提到的segment_length越短,敏感性越強(qiáng)這個(gè)說(shuō)法。

            六.測(cè)試總結(jié)

            1.由于MapSplice在我們已經(jīng)配置好的服務(wù)器上能夠很流暢的直接使用,所以對(duì)于我們的hdfs而言,我們認(rèn)為可以直接裝配使用。對(duì)于本地的軟件使用的可能需要復(fù)雜的軟件支持,由于在這一步我們花費(fèi)了部分的時(shí)間,所以在此并沒(méi)有進(jìn)行詳細(xì)的尋找軟件依賴(lài)關(guān)系。

            2.綜合考慮junction查找能力以及運(yùn)行時(shí)間,我們認(rèn)為在一般情況下,默認(rèn)參數(shù)就是可以的了。當(dāng)有特殊需求時(shí),可以考慮使用參數(shù)在2022內(nèi)的任意值。

            3.對(duì)于Illumina的單端數(shù)據(jù)而言,我們認(rèn)為使用Tophat的效果比使用MapSplice的效果好,對(duì)于Illumina的雙端數(shù)據(jù)而言, 對(duì)于ionproton的數(shù)據(jù)而言,我們認(rèn)為使用MapSplice的效果遠(yuǎn)比使用Tophat好,不論是mapping率還是junction數(shù)都顯示使用MapSplice更加合適。

            4.我們認(rèn)為查找junction以及查找融合基因這兩個(gè)工作應(yīng)該分開(kāi)進(jìn)行。由于時(shí)間關(guān)系,我們并沒(méi)有查找弱化junction數(shù)目查找情況下,對(duì)融合基因查找的影響。

            5.鑒于MapSplice查找junction時(shí)存在一定幾率不能找全所有的junction,所以對(duì)于查找情況不好的數(shù)據(jù),我們可以通過(guò)簡(jiǎn)單的重復(fù)運(yùn)行或更改參數(shù)運(yùn)行來(lái)嘗試提高這個(gè)數(shù)據(jù)。

            6.我們測(cè)試結(jié)果顯示回帖操作并不能通過(guò)將源文件分割分別回帖來(lái)實(shí)現(xiàn)分布式運(yùn)行。

            七.測(cè)試中使用的命令,參數(shù)及說(shuō)明

            測(cè)試的結(jié)果在/media/hdfs/nbCloud/public/test/Illuminaandionproton0906/MapSplice-v2.1.5文件夾中下。

            測(cè)試中統(tǒng)計(jì)junction數(shù)目的命令為

            awk -F"\t" '{if((($3-$2)>20)&&(($3-$2)<10000)){total+=$5}}END{print total}' ./split4_test_segment_length20_non_canonical/junctions.txt

            分割文件使用的perl文件見(jiàn)附件

            使用MapSplice命令如下

            Python MapSplice1.py  -c /media/hdfs/nbCloud/public/nbcplatform/genome/human/hg19_GRCh37/ChromFa/sep \

            -x /media/winE/genome/human/hg19_GRCh37/ChromFa/all/hg19_GRCh37_bowtie_index -o ./split4_test_segment_length25/ -1  ../split4.fq  -p 10 -s 25

            Mapsplice參數(shù)說(shuō)明

            其中重要的參數(shù)是粗體表現(xiàn)。

            必須參數(shù):

            -c 序列文件的文件夾,注意:文件必須是fasta格式,后綴是.fa文件。

            -x       bowtie_index指定的路徑及前綴。注意:只支持bowtie1的索引,并不支持bowtie2的索引。如果沒(méi)有設(shè)定這個(gè)選項(xiàng),或者指定的路徑?jīng)]有對(duì)應(yīng)的索引,則會(huì)在結(jié)果輸出路徑下自動(dòng)建立索引。

            -1 FATSA格式或者是FASTQ格式。對(duì)于雙端的回帖,這對(duì)應(yīng)編號(hào)為1的文件。多個(gè)文件用逗號(hào)隔開(kāi),文件名之間不能有空格

            -2 FATSA格式或者是FASTQ格式。對(duì)于雙端的回帖,這對(duì)應(yīng)編號(hào)為2的文件,并且兩個(gè)文件順序必須一致。多個(gè)文件用逗號(hào)隔開(kāi),文件名之間不能有空格

            -p/--threads 線程數(shù)目,默認(rèn)是1;

            -o/--output 指定Mapsplice輸出文件夾,默認(rèn)是./mapsplice_out/這個(gè)文件夾 沒(méi)有寫(xiě)清楚輸出文件的具體樣式,譬如輸出文件前綴,文件名,輸出文件類(lèi)型

            --qual-scale 輸入文件的打分類(lèi)型。默認(rèn)是自動(dòng)尋找,可以指定如下:phred33,phred64,solexa64

            --bam 默認(rèn)的輸出文件時(shí)SAM格式的文件,通過(guò)這個(gè)選項(xiàng)可以指定輸出BAM文件。

            --keep-tmp 保存中間文件。

            -s/--seglen 指定segment_length,通常默認(rèn)是25,我們測(cè)試的結(jié)果暗示這個(gè)結(jié)果在2022都是不錯(cuò)的。最小值是18,目前測(cè)試的結(jié)果暗示最大值不要超過(guò)30.

            --min-map-len 軟件只會(huì)記錄完全匹配或者匹配數(shù)目不小于這個(gè)參數(shù)的序列。默認(rèn)參數(shù)是50.

            -k/--max-hits 每個(gè)read的最大匹配數(shù),大于這個(gè)數(shù)的序列都丟棄掉。默認(rèn)參數(shù)是4.

            -i/--min-intron 最小intron長(zhǎng)度,默認(rèn)是50

            -I/--max-intron 最大intron長(zhǎng)度,默認(rèn)是300000

            --non-canonical 同樣也搜索非經(jīng)典的junction,我們測(cè)試的結(jié)果是這個(gè)參數(shù)能夠提高junction數(shù)目,但是并不明顯。

            -m/--splice-mis 允許第一以及最后一個(gè)部分的最大不匹配數(shù)目。允許范圍是0-2,默認(rèn)參數(shù)是1。

            --max-append-mis 允許匹配高出錯(cuò)率片段以及鄰近的低出錯(cuò)片段不匹配的數(shù)目。默認(rèn)參數(shù)是3

            --ins 最大插入長(zhǎng)度,默認(rèn)是6,范圍是0-10

            --del 最大刪除長(zhǎng)度,默認(rèn)是6,范圍是0-10

            --fusion| --fusion-non-canonical 查找融合(非經(jīng)典)基因

            --filtering junctions過(guò)濾級(jí)別,取值為1,2.默認(rèn)是2;1代表更高的敏感度。2是標(biāo)準(zhǔn)過(guò)濾。







            衡东县| 嘉祥县| 施甸县| 梧州市| 饶阳县| 无锡市| 库尔勒市| 琼中| 安吉县| 万源市| 桃园县| 慈溪市| 丹棱县| 鸡泽县| 句容市| 桓台县| 湘乡市| 湟中县| 玛多县| 南阳市| 凭祥市| 德庆县| 时尚| 建水县| 右玉县| 青州市| 裕民县| 惠来县| 民县| 色达县| 长寿区| 油尖旺区| 辉县市| 叶城县| 东丰县| 民县| 梁河县| 北京市| 潮安县| 泸水县| 巴南区|