[摘要]中藥是中華傳統(tǒng)文化的瑰寶,是中華民族智慧的結(jié)晶。新方法技術(shù)的不斷應(yīng)用使得中藥研究與時(shí)俱進(jìn)。高通量轉(zhuǎn)錄組研究經(jīng)過(guò)數(shù)年的發(fā)展,已經(jīng)成為一項(xiàng)較為成熟的研究手段。該文對(duì)中藥轉(zhuǎn)錄組研究概況進(jìn)行了綜述,比較了Roche公司的GS FLXTM平臺(tái)和Illumina公司的HiSeqTM 2000平臺(tái)兩大測(cè)序平臺(tái),介紹了中藥轉(zhuǎn)錄組分析的流程,并以西洋參和金銀花為例,闡述了中藥轉(zhuǎn)錄組研究的特色。對(duì)傳統(tǒng)中藥進(jìn)行高通量轉(zhuǎn)錄組研究,可以從整體水平上了解目標(biāo)物種的功能基因概況,明確活性成分的代謝通路,為中藥研究奠定分子生物學(xué)基礎(chǔ),為傳統(tǒng)中醫(yī)藥理論提供現(xiàn)代生物學(xué)闡釋。但是,目前的中藥轉(zhuǎn)錄組研究仍面臨著分子基礎(chǔ)薄弱,測(cè)序投資成本高,分析人員緊缺等困難。未來(lái),伴隨測(cè)序技術(shù)的發(fā)展與完善,轉(zhuǎn)錄組與蛋白質(zhì)組、代謝組等組學(xué)的聯(lián)合應(yīng)用,將為開創(chuàng)高通量篩選與高效率研發(fā)相結(jié)合的新型中藥產(chǎn)業(yè)發(fā)展模式奠定堅(jiān)實(shí)的基礎(chǔ)。
[關(guān)鍵詞]中藥; 轉(zhuǎn)錄組; 西洋參; 金銀花
中藥經(jīng)過(guò)數(shù)千年的積累沉淀,承載著豐富的中醫(yī)理論。近年來(lái),中藥研究進(jìn)展飛速,不僅為醫(yī)藥產(chǎn)業(yè)提供了巨大的新藥創(chuàng)制資源,更成為未來(lái)多靶點(diǎn)藥物研發(fā)的源泉,彌補(bǔ)了西藥治療位點(diǎn)單一的不足。目前,指紋圖譜技術(shù)和質(zhì)譜色譜技術(shù)的應(yīng)用,促進(jìn)了中藥有效成分的發(fā)現(xiàn)與鑒定[1-2]。然而尚有許多中醫(yī)藥理論因缺少現(xiàn)代自然科學(xué)的支撐和驗(yàn)證,難以被社會(huì)所接受。轉(zhuǎn)錄組(transcriptome)是指特定生物體在某種狀態(tài)下所有基因轉(zhuǎn)錄產(chǎn)物的總和,轉(zhuǎn)錄組研究屬于功能基因組學(xué)研究的范疇,是連接基因組與蛋白質(zhì)組的紐帶。轉(zhuǎn)錄組研究著重于功能基因的表達(dá),闡述生物學(xué)過(guò)程中的分子機(jī)理,已經(jīng)成為生物學(xué)領(lǐng)域較為成熟的研究手段。應(yīng)用高通量轉(zhuǎn)錄組分析技術(shù),可以從基因?qū)用嫔辖庾x中醫(yī)藥的現(xiàn)代內(nèi)涵,闡述中藥有效成分的代謝通路,為高通量發(fā)掘新型活性藥物成分奠定了堅(jiān)實(shí)的基礎(chǔ)。自2009年以來(lái),已有青蒿Artemisia annua[3]、西洋參Panax quinquefolius[4]、淫羊藿Epimedium Sagittatum[5]、金銀花Lonicera japonica[6-7]等數(shù)種傳統(tǒng)中藥材進(jìn)行了高通量轉(zhuǎn)錄組的測(cè)序和分析。本文綜述了轉(zhuǎn)錄組技術(shù)在中藥領(lǐng)域的研究進(jìn)展,對(duì)金銀花、西洋參等代表物種的研究進(jìn)行了詳細(xì)闡述,總結(jié)了中藥轉(zhuǎn)錄組分析的特色與不足,并對(duì)中藥轉(zhuǎn)錄組的研究進(jìn)行展望。
1中藥轉(zhuǎn)錄組研究
1.1中藥轉(zhuǎn)錄組研究概況
截至2014年1月,已有17種中藥進(jìn)行了高通量轉(zhuǎn)錄組的研究。其中,開展研究最早的是青蒿A. annua[3],隨后,中藥轉(zhuǎn)錄組研究發(fā)展迅猛,2012年,有8種中藥進(jìn)行了轉(zhuǎn)錄組研究(表1)。除了胡黃連Picrorhiza kurrooa[8]和百合Lilium regale[9],剩余的15種中藥的轉(zhuǎn)錄組測(cè)序工作均由中國(guó)人完成,體現(xiàn)了我國(guó)在中藥研究領(lǐng)域的霸主地位。早期的轉(zhuǎn)錄組測(cè)序主要以GS FLXTM System和GS FLXTM Titanium System平臺(tái)為主;到2012年,主要的測(cè)序平臺(tái)變?yōu)镮llumina HiSeqTM 2000;只有羅漢果Siraitia grosvenorii[10]和金銀花L. japonica[6]的轉(zhuǎn)錄組研究采用了Illumina GAⅡ platform平臺(tái)。金銀花L. japonica[6]注釋得到的基因數(shù)目最少,為5 330~6 591個(gè),梅花鹿鹿茸Cervus nippon [14]注釋得到的基因數(shù)目最多,為138 642個(gè)。梅花鹿鹿茸轉(zhuǎn)錄組注釋得到了較多的基因,除了其本身基因豐富、可變剪切較多之外,還可能是由于其轉(zhuǎn)錄組的拼接效果較差,contig的N50為90 bp,使得原本由多個(gè)外顯子構(gòu)成的基因注釋成了分別的幾個(gè)較短的基因,從而使得注釋得到的基因數(shù)目偏多。
1.2中藥轉(zhuǎn)錄組的測(cè)序平臺(tái)比較
表1可知,中藥轉(zhuǎn)錄組研究的兩大平臺(tái)為Roche公司的GS FLXTM平臺(tái)和Illumina公司的HiSeqTM 2000平臺(tái)。GS FLXTM平臺(tái)的歷史可以追溯到2005年,454公司推出了基于焦磷酸測(cè)序法的高通量基因組測(cè)序系統(tǒng)[22],這一技術(shù)開創(chuàng)了邊合成邊測(cè)序(sequencing-by-synthesis, SBS)的先河,其后的第二代基因組測(cè)序系統(tǒng)——Genome Sequencer FLXTM System(GS FLX)[23]就是在此基礎(chǔ)上建立起來(lái)的(圖1)。454公司被Roche公司收購(gòu)之后,于2008 年10 月,推出了全新的測(cè)序試劑——GS FLXTM Titanium,全面提升了測(cè)序的準(zhǔn)確性、讀長(zhǎng)和測(cè)序通量。目前,Roche 454 GS FLXTM Titanium System每次運(yùn)行能產(chǎn)生100萬(wàn)條序列,平均讀長(zhǎng)能達(dá)到400~600 nt,且第400個(gè)堿基的準(zhǔn)確率能達(dá)到99%。一次運(yùn)行所需時(shí)間不到10 h,便能獲得40 Gb左右的測(cè)序數(shù)據(jù)。HiSeqTM 2000平臺(tái)是Illumina公司Solexa平臺(tái)中最為成功的商業(yè)化型號(hào),一次運(yùn)行可以獲得60億條序列,總數(shù)據(jù)量達(dá)到540~600 Gb,彌補(bǔ)了平均讀長(zhǎng)較短的不足[24]。其測(cè)序的原理基于橋式PCR,HiSeqTM 2000平臺(tái)在此基礎(chǔ)上改進(jìn)了聚合酶,并使用甲酰胺變性,提高了橋式PCR的擴(kuò)增效率(圖1)。另外,HiSeqTM 2000平臺(tái)價(jià)格相對(duì)較低,因此,成為目前應(yīng)用最為廣泛的二代測(cè)序平臺(tái)。
2中藥轉(zhuǎn)錄組研究的特色
2.1中藥轉(zhuǎn)錄組分析流程
最早進(jìn)行轉(zhuǎn)錄組研究的青蒿A. annua[3],采用454 GS FLXTM平臺(tái),共獲得406 044條序列,平均讀長(zhǎng)為210個(gè)堿基;組裝得到42 678條contig和147 699條singleton?梢哉f(shuō),數(shù)據(jù)拼接是轉(zhuǎn)錄組研究中數(shù)據(jù)分析的第一步。根據(jù)測(cè)序平臺(tái)的不同,所采用的數(shù)據(jù)拼接軟件也各不相同。例如,在GS FLXTM平臺(tái)上,甘草Glycyrrhiza uralensis[11]、丹參Salvia miltiorrhiza[12]和人參Panax ginseng[15]均采用該平臺(tái)自帶的拼接軟件GS De Novo Assembler software v2.0.01 (454 Life Sciences, Roche)來(lái)完成序列的組裝;而在HiSeqTM 2000平臺(tái)上,首烏Polygonum cuspidatum[16]和紅花Carthamus tinctorius[17]采用的軟件為SOAPdenovo,白木香Aquilaria sinensis[21]采用的軟件為Trinity。
原始數(shù)據(jù)經(jīng)過(guò)拼接之后,就可以進(jìn)行下一步的基因注釋。在基因注釋的過(guò)程中,通過(guò)不同數(shù)據(jù)庫(kù)的交叉比較,可以得到較好的注釋效果。通常第一步是在NCBI(美國(guó)國(guó)立生物技術(shù)信息中心)的非冗余(non-redundant,nr)蛋白庫(kù)中通過(guò)BLASTX進(jìn)行比對(duì),設(shè)定閾值為1×10-5。由于非冗余蛋白庫(kù)中存放著大量物種的蛋白質(zhì)序列,這一步通常耗費(fèi)較多的時(shí)間,得到的注釋結(jié)果也較為全面。為了對(duì)注釋得到的基因進(jìn)行功能分類,常采用InterProScan[25]和Blast2GO[26]進(jìn)行GO(Gene Orthology,基因本體論)注釋。GO注釋包含三大層面:細(xì)胞組分(cellular component)、分子生物學(xué)功能(molecular function)和生物學(xué)途徑(biological process),每個(gè)層面下又有不同級(jí)別的細(xì)分類,可以較為清晰的呈現(xiàn)轉(zhuǎn)錄組的功能分類情況[27]。另外,常采用的還有COG(clusters of orthologous group,直系同源聚類分析)注釋[28]。通過(guò)COG注釋,可以根據(jù)同源比對(duì)注釋未知蛋白序列,還可以查看特定條目下的蛋白數(shù)目及缺失情況,從而能推測(cè)特定代謝通路是否存在。另一個(gè)可以用于基因通路分析的數(shù)據(jù)庫(kù)是KEGG(Kyoto encyclopedia of genes and genomes,京都基因與基因組百科全書)[29]。KEGG 的PATHWAY 數(shù)據(jù)庫(kù)整合了分子互動(dòng)網(wǎng)絡(luò)(比如通道,聯(lián)合體)的知識(shí),實(shí)現(xiàn)了基因目錄與更高級(jí)別的細(xì)胞、物種和生態(tài)系統(tǒng)水平的系統(tǒng)功能的關(guān)聯(lián)。KEGG強(qiáng)大的圖形功能,能夠更為直觀全面的展現(xiàn)基因在代謝途徑上的分布以及各代謝通路之間的相互關(guān)系。早期研究中,青蒿A. annua[3]的轉(zhuǎn)錄組研究只使用了nr庫(kù)注釋和GO注釋,西洋參[4]P. quinquefolius的轉(zhuǎn)錄組研究只使用了nr庫(kù)注釋和KEGG注釋;而在近期研究中,金銀花L. japonica[6]、虎杖Polygonum cuspidatum[18]、杜仲Eucommia ulmoides[19]等的轉(zhuǎn)錄組研究全面的使用了nr庫(kù)注釋、GO注釋、COG注釋和KEGG注釋,標(biāo)志著中藥轉(zhuǎn)錄組研究的方法體系日趨完善。
2.2轉(zhuǎn)錄組技術(shù)在中藥中的應(yīng)用及優(yōu)勢(shì)
雖然中藥轉(zhuǎn)錄組的研究尚處于起步階段,相關(guān)研究還很零散,但是,已有數(shù)種中藥物種的轉(zhuǎn)錄組研究取得了突破性進(jìn)展,顯示出轉(zhuǎn)錄組技術(shù)在中藥研究中的巨大潛力,為后續(xù)中藥轉(zhuǎn)錄組的研究奠定了基礎(chǔ)。中藥轉(zhuǎn)錄組研究能夠通過(guò)數(shù)據(jù)分析,發(fā)現(xiàn)與中藥活性成分相關(guān)的新基因型和新代謝通路。例如,甘草G. uralensis[11]的轉(zhuǎn)錄組研究通過(guò)數(shù)據(jù)分析發(fā)現(xiàn)了甘草酸骨架合成相關(guān)的16個(gè)酶的候選基因,通過(guò)與Real-time PCR實(shí)驗(yàn)相結(jié)合,又發(fā)現(xiàn)了9個(gè)可能參與甘草酸合成的基因,包括3個(gè)細(xì)胞色素P450和6個(gè)糖基轉(zhuǎn)移酶基因,加深了對(duì)甘草酸生物合成途徑的認(rèn)識(shí)。紅花C. tinctorius[17]的轉(zhuǎn)錄組研究著重對(duì)類黃酮和不飽和脂肪酸的生物合成通路進(jìn)行分析,KEGG預(yù)測(cè)結(jié)果表明相關(guān)通路基因在紅花中較為保守。另外,中藥轉(zhuǎn)錄組研究還能有效結(jié)合轉(zhuǎn)錄組和生化實(shí)驗(yàn)數(shù)據(jù),明晰其活性成分的作用機(jī)制,從基因表達(dá)的層面上,更好地闡釋中醫(yī)藥理論的深刻內(nèi)涵。例如,西洋參P. quinquefolius[4]的轉(zhuǎn)錄組研究結(jié)合了甲基茉莉酸誘導(dǎo)實(shí)驗(yàn)和Real-time PCR實(shí)驗(yàn),確定了5個(gè)可能參與人參皂苷合成的候選基因,包括一個(gè)細(xì)胞色素P450和4個(gè)UDP-糖基轉(zhuǎn)移酶基因。金銀花L. japonica[6]的轉(zhuǎn)錄組研究結(jié)合氣象色譜質(zhì)譜及高效液相色譜技術(shù),建立起了基因表達(dá)量與活性物質(zhì)含量之間的關(guān)聯(lián)。
2.3代表中藥轉(zhuǎn)錄組研究解析
2.3.1 西洋參轉(zhuǎn)錄組研究 西洋參P. quinquefolius[4]是目前應(yīng)用最廣泛的傳統(tǒng)中藥材之一,也是較早開展轉(zhuǎn)錄組研究的中藥材之一。西洋參轉(zhuǎn)錄組研究采用454 GS FLXTM Titanium System平臺(tái),共得到209 747條高質(zhì)量序列,平均讀長(zhǎng)為427個(gè)堿基,數(shù)據(jù)組裝得到16 592條contig和14 496條singleton。通過(guò)nr庫(kù)注釋,得到21 684個(gè)基因。通過(guò)KEGG通路注釋,發(fā)現(xiàn)西洋參的轉(zhuǎn)錄組中包含了甾醇骨架合成通路、油菜素類固醇合成通路和豆甾醇合成通路的所有基因。人參皂苷的合成途徑中有2步是由細(xì)胞色素P450基因催化的,第一步是催化達(dá)瑪烷轉(zhuǎn)化為原人參二醇,第二步是催化原人參二醇轉(zhuǎn)化為原人參三醇。因此,在西洋參轉(zhuǎn)錄的研究中,著重進(jìn)行了細(xì)胞色素P450的注釋和分析,共獲得了150個(gè)細(xì)胞色素P450基因,并進(jìn)行了甲基茉莉酸誘導(dǎo)實(shí)驗(yàn)的驗(yàn)證,篩選得到了一系列與人參皂苷合成相關(guān)的細(xì)胞色素基因。另外,該研究在新基因型發(fā)掘方面,還發(fā)現(xiàn)了235個(gè)糖基轉(zhuǎn)移酶基因。西洋參的轉(zhuǎn)錄組研究結(jié)合了高通量測(cè)序、數(shù)據(jù)分析和后期的實(shí)驗(yàn)驗(yàn)證,研究體系完整,實(shí)驗(yàn)結(jié)果詳實(shí)。實(shí)現(xiàn)了對(duì)西洋參人參皂苷代謝通路的分析,有利于今后工程西洋參的研發(fā)和應(yīng)用。