WK綜合論壇, WK综合论坛

查看:1998 回復:1 發表於 2019-6-30 06:24:41
累計簽到:1488 天
連續簽到:10 天
跳轉到指定樓層
楼主
發表於 2018-11-1 12:02:02 | 只看該作者 回帖獎勵 |倒序瀏覽 |閱讀模式
VIP精品區,資源無限好賺金任務區,輕松賺金幣
加入VIP,享受高級特權宣傳賺金又升級,超級棒

[人生] 整天泡實驗室已out了,會寫代碼才是不被淘汰的關鍵 [複製鏈接]

下一代基因測序等新的生物醫學技術正在製造海量的數據,改變這個科學領域。這一趨勢帶來了過去無法想象的突破,也讓研究人員不得不奮起直追,好趕上先進技術的步伐。

% d# J/ y; Y- q, D, m$ y3 L) R

  安妮·柯克蘭(Anne Corcoran)說:“這讓我感覺自己老了。”她是位於英國劍橋的人類生物學研究中心——巴布拉漢姆研究所(Babraham Institute)的一名科學家。柯克蘭帶領的團隊在研究人類基因組與免疫係統、尤其是抵禦感染的抗體之間的關係,

2 w  M3 k, I- B: z$ D

  用她自己的話說,她是一個“老派生物學家”,練就了一身使用移液管、培養皿和護目鏡的技術,那種坐在板凳上擺弄瓶瓶罐罐的工作被稱為“濕實驗”。回想自己早年的職業生涯,她說:“我很清楚凝膠上的基因長什麼樣。”


& n0 Z( K1 {6 F

  現如今僅有這些技能是不夠的。柯克蘭說:“十五年前我開始招博士的時候,他們全是擅長濕實驗室技術的。但現在我們招博士生的時候,首先考慮的是他們能不能處理複雜的生物信息分析。”現在,要想成為一名生物學家,你還得是個統計學家,甚至是程序員。你得會寫算法才行。


1 _& y9 T! E1 x" t# p! K& f& I2 f) p0 b

  算法本質上是一組指令,即一組預先定義的步驟。菜譜也可以被視為一種算法,當然更明顯的算法是計算機程序。你確定了輸入,食材、數字或者隨便什麼,一步步運行算法(可以像“對每個數字加一”那麼簡單,也能像穀歌的搜索算法那麼複雜),就能得到輸出:蛋糕、搜索結果,或者一個 Excel 電子表格。

. l1 J. P7 S" L# }+ E

  像柯克蘭這樣的研究者們需要用到算法,在她擔任團隊領導者的 17 年中,生物學發生了天翻地覆的變化。引發改變的原因,正是隨生物醫學技術,尤其是新一代測序技術發展而產生的海量數據。


/ i# Z3 [/ K$ F3 Q$ Q

  不久之前,對整個基因組進行測序、確定 DNA 螺旋中所有 30 億個堿基對的順序還需要花費數年。人類基因組計劃(The Human Genome Project)首次確定了人類全套基因組序列,它從提出到 2003 年結束共耗費了 13 年時間、20 億英鎊(約合人民幣 180 億元)。而現在,新一代測序技術僅需 24 小時就能完成同樣的工作,花費不超過 1000 英鎊 (人民幣 9100 元)。

3 q! ~4 p0 H, d6 t3 Z3 q

  這完全改變了科學家的工作方式。這不僅意味著他們需要幹的髒活變少了,需要具備的技能改變了,更意味著科學的整個過程,即從產生想法到完成驗證,都已經被顛覆。


' n. {; X& d5 r; i0 ~$ G7 b

  許多年長的科學家都得了解之前沒有接觸過的技術,還得對學生進行指導。那些原本沒有教授現代生物學所需技術的學校也在你追我趕,爭相開設相關課程。但最重要的是,這些技術的出現為科學發現帶來了突破性的進展,這是在 20 年前、甚至 10 年前根本不可能實現的。


$ }$ }! B, x3 v3 y

  全基因組關聯研究

  從巴布拉漢姆出發,只需十分鍾車程,就能到達欣克斯頓村(Hinxton),這裏坐落著另一個重要的生命科學中心,維爾康姆基金會桑格研究所(Wellcome Sanger Institute)。它最近滿 25 歲了,這裏的一磚一瓦都記錄了基因組學的飛速發展。

8 U9 h5 j/ r5 x- r; B

  桑格研究所旁邊就是歐洲生物信息學研究所(the European Bioinformatics Institute),目前在這裏工作的莫裏茨·格斯登(Moritz Gerstung)回憶起往事,笑了出來。他說:“我的博士後研究就是在桑格做的。你幾乎一眼就能看出這建築是什麼時候設計的,用來做實驗的空間特別大,但是可以讓科學家們在電腦前坐著分析數據的地方卻沒有多少。”


0 Q8 m# J7 D' H4 i! @' ]* G+ |

  牛津大學大數據研究所(Big Data Institute)的統計遺傳學教授吉爾·麥克維恩(Gil McVean)表示,這點在哪兒都一樣。如今,基因組研究的大部分工作都是在電腦上完成的,很少會用到實驗台。他說:“那些成立十五年以上的研究所裏,90% 都是濕實驗室,但如果你進去看看,就會發現幾乎讓人人都坐在電腦前。現在建立的生物醫學研究中心裏,僅有 10% 的濕實驗室,其他 90% 都是電腦計算實驗室。”


7 u4 l+ k5 f' u+ b6 A, {* S

  這並不是唯一的變化。麥克維恩認為:“科學界一個重大的變化,是人們漸漸拋棄之前那種專一、有針對性、假設引導的模式,即那種‘產生想法、設計實驗、進行實驗、驗證結果’的模式。”

) v0 ?3 H' w2 [6 B

  在過去,你必須事先對某個基因可能起到的作用作出基本可靠的設想,也就是說,要對其生化作用通路展開合理的想象,判斷這個基因與某一疾病或特征的關聯。耗時的基因測序以及有限的電腦計算能力意味著,為了節約時間和金錢,在實驗之前你就要明確自己要找的是什麼。


6 P, B+ `8 c4 [) n$ E

  但現在,你只需要收集大量的數據,讓數據決定假設是什麼,麥克維恩說道。如果你有 10000 個某種疾病患者的基因組和 10000 個健康人的基因組數據,那麼你就不再需要提前甄別出可能有關的基因,只要寫一個算法來比較這些數據,分析兩組的差異,然後找出與疾病有關的基因就行了。

) K8 V5 d! `" ^) d9 ?' f

  這就是全基因組關聯研究(genome-wide association study),數據驅動時代一種常見的分析形式。理念很簡單,就是從一大群人中獲取基因組信息,進行測序,然後用算法來比較所有的 DNA。要比較的信息不僅包含大約 2.4 萬個編碼 DNA(即基因,只占基因組中的 1-2%),還包括那些目前仍然保持神秘的未編碼 DNA。算法也很簡單:例如,比較特定 DNA 突變在具有某種特征和不具有這種特征的人群中出現的頻率。如果這個突變在具有某種特征的人群中出現的頻率顯著高於預期,算法就會將其標記出來。

% {8 }- T; o% y4 ^- ?0 J3 z

  這種做法的難點在於,疾病大都很複雜,涉及成百上千個基因或未編碼 DNA 片段。因此,複雜的多維分析很快應運而生。雖然不會用到新的數學知識,但在如此龐大的任務中,算法必不可少。應用算法,通常能一次比較幾十個到數百個參數。

& n: y( Z6 F2 q" I" p8 Y

  這和穀歌的搜索算法有點相似。對網頁進行排序的過程並不複雜——比如檢測你的搜索關鍵詞在頁面上出現的頻率、位置,以及到該頁面的鏈接數量等。但算法能夠結合數百種方法,同時完成數十億網頁的檢測,這是人力不所能及的。


( b" V( q3 `: b; Y1 m7 c) i5 o

  癌症基因組

  算法的應用給人來帶來了巨大的便捷。格斯登的研究領域——癌症基因組學可能是受益最大的領域之一,比如在白血病方面。


* H3 x: l+ `% R7 N& b

  在某些情況下,這種給人致命打擊的疾病可以通過骨髓移植完全治愈。不過骨髓移植是一場大手術,它帶來的並發症也可能導致病人死亡。只有在無計可施的時候,醫生才會對白血病患者進行骨髓移植。

# b# p( L; \& p" d; ]3 i) F! L0 h' K

  然而,預測哪種白血病最為致命十分困難。白血病的症狀非常複雜,醫生不一定能夠據此推斷出準確的預後。

5 E! w  c9 V; b

  因此,格斯登團隊的研究對 1500 名癌症患者的基因組進行測序,找出相關的 DNA 突變,然後判斷這些突變分別對應哪些症狀。他們共找到了 5000 種不同的突變和約 1000 種不同的組合,然後將這些組合按死亡風險的高低分為 11 類。格斯登表示:“這能讓臨床醫生做出更準確的決定。”

2 S& H# R9 b, Y! U3 N7 }

  數據驅動帶來的影響還要比這大得多。南安普敦大學(University of Southampton)癌症免疫學教授埃德·詹姆斯(Edd James)認為,對腫瘤基因組進行測序已經在癌症治療方法中引發了“思維轉變”,“癌症不只是一大堆複製的細胞,如今我們對這一事實感到更加慶幸”。


4 u& N) u2 X2 n. x, v7 V

  一種癌症可能會包含數十種不同類型的細胞,每種細胞又有不同的 DNA 突變組合,需要使用不同的藥物進行治療。所以基因測序讓臨床醫生能夠對他們的病人(和腫瘤)選擇更有針對性的藥物。詹姆斯說:“以前,治療都是針對人群的,‘X% 的病人在接受這種治療後會有好轉’,但有了基因測序的信息之後,你能判斷每個個體是否適合這種治療。”


  w+ `; V) q( H% f9 c" d

  除了發現差異,基因測序也能反映不同癌症之間的共性。詹姆斯說,曆史上,癌症根據解剖部位來定義:如肺癌、肝癌、頭頸癌等,“但應用新一代測序技術,你會發現有些不同部位癌症之間的共同點比同一部位之間的還要多。這讓我們意識到,某些癌症(如乳腺癌)的特效藥也許能治療其他部位的癌症。”


$ x: }# w" [7 I" y, E: P

  格斯登支持這個觀點:“從遺傳學角度看,不同解剖部位的癌症存在大量重疊。甚至有人在某些前列腺癌中發現了 BRCA1(一種與乳腺癌密切相關的基因)。”


7 {* z1 w+ @* g$ M

  這種相似性也變得愈發重要。美國食品藥品監督管理局(Food and Drug Administration)最近批準一種抗癌藥物——派姆單抗(pembrolizumab)——用於治療任何出現錯配修複缺陷(一種 DNA 修複錯誤)跡象的癌症,這標誌著按基因而不是發病部位治療癌症的藥物開始獲批。


$ p) o4 w" T. Q/ E/ B$ N; l

  這一切都歸功於不斷湧現的數據流。

5 z  L0 E, A8 D, K

  從生物到編程

  桑格研究所研究致病菌基因組的數據科學家妮可·惠勒(Nicole Wheeler)表示:“我們很善於生成數據,結果得到了過多的數據。”麥克維恩也表示讚同:“根據摩爾定律,計算能力每 18 個月能翻一番。通過基因組測序和醫學成像、數字病理學采集到的生物醫學數據增長速率比這還要快。生物醫學數據遵循的是‘超級摩爾定律’。”


' x/ U$ ?* Y9 U

  在本世紀初,生物學家自己檢查數據還是一件完全不可能的事。這也就意味著生物學家要麼聘用專人,要麼自己成為數據科學家。

. K" a- a  J! @, p$ n6 Z& d* i

  安妮·柯克蘭說:“幾年前我們遇到了瓶頸。我們有許多數據,卻不知該如何處理。由此算法應運而生,處理數據,使其發揮最大價值。如果研究一個或幾個基因,還可以手動計算;但如果你要研究兩萬個基因表達,手動統計根本不現實。”

# i. P, b* Z+ l* b' L& T' `

  許多生物學家都像柯克蘭一樣,在實驗台和玻璃器皿之間成長起來,而不是電腦和辦公桌旁——他們不得不學著使用這些算法。柯克蘭說:“我覺得年長的科學家常常被算法嚇倒,他們比對年輕的同事可能會過於依賴,或者更願意承認這點。”

, ~, o" a- }, M4 {( V

  柯克蘭發展出了關於算法原理的 “實用知識”,但她也承認,“這是一個有些脆弱的時期,團隊領導看不懂下屬們做的工作。”

9 P. C- c% J1 c8 Q3 H( J/ o

  柯克蘭在巴布拉漢姆研究所的同事沃爾夫·瑞克(Wolf Reik)對此表示同意。瑞克領導著一個表觀遺傳學研究團隊,他說,老一輩科學家的思考方式完全不同,“這點很有趣——開組會的時候,我的員工會把基因組當做一個整體來思考問題;而我會分析單個基因,然後進行歸納,因為這就是我受到的思維訓練。”

8 s( x8 z$ `1 h

  他認為,對處在他這個位置的人來說,理解新一輩科學家的工作很關鍵,“最關鍵的是要對如何使用算法工具形成直覺理解……畢竟工作中最後會有我的署名。”

, ^# C5 F* ?' ^5 H  g# @

  另一方面,年輕科學家在數據環境下長大,而且其中一些人之前就接觸過相關知識。格斯登本科學的是物理,不過有些團隊負責人也是如此,如麥克維恩。但一些原本學習生物的人現在卻學起了編程。在桑格研究所研究基因型與人類不同表現型關係的博士後蔡娜(音,Na Cai)說:“我本科學的是生物,那才是我的專業領域。”


3 V5 m0 R; N. P+ G3 y1 g4 r# r

  “而現在我每天做的是統計分析。這就像學習一種或幾種新的語言一樣,我得把之前大腦中生化路徑和流程圖的思維方式,轉化成一種更結構化的編程思維。”


7 c0 w" Y3 H, o7 d1 G$ k/ C/ C- |" H

  與她共事的那些年長科學家都“挺跟得上發展潮流”,她說道,“他們可能自己不會寫代碼,但是能看懂寫好的代碼能做什麼分析。”

- V! N, E! [4 b# D& U( Z7 @# }7 v5 s

  蔡娜的同事惠勒也是生物學出身,後來學起了編程。惠勒說:“我沒有傳統的軟件工程背景,我是邊讀博士邊學了編程。(我編的程序)不是最高效的,也不是最迷人的,但編程的目的是明確你要進行怎樣的計算,然後實現它。”

2 I7 t8 T2 E0 ~8 N

  為了滿足這些需求,這幾年本科學位發生了很大變化。比如,紐卡斯爾大學(Newcastle University)在生物係本科課程中增設了生物信息學。雷丁大學(Reading University)的畢業設計課題中也包含了計算生物學,不過學生們很少在前幾年選修計算課程,所以他們會在最後一年“臨時抱佛腳”。倫敦帝國理工學院(Imperial College London) 已經開設了生物信息學課程,正計劃給大一大二學生增設編程課。惠勒說:“我覺得人們已經認識到,生物學涉及的數據比過去要多得多,因此人們需要具備處理這些數據的技能。”


% b% Z, e- j  x& Z

  但是,改變過程很慢,而且有時候會受到學生們的抵觸,畢竟有些人選擇生物可不是為了學編程。柯克蘭表示:“我只能說本科課程正在追趕這一趨勢,但總體而言還沒趕上,從計算機相關碩士課程的激增就能看出這點。”

# l; a7 l9 c% L* m' u: U) j9 `

  當然,改變還是必要的。即使是那些最需要做濕實驗工作的科學家,在接受采訪時也表示他們做實驗的時間比以往減少了 50%;更有一些人表示,這一比例已經降到了 10%,例如蔡娜的例子,自從專門研究生物信息學以來就根本就沒做過濕實驗。

% t% o6 ?5 M5 I9 M* R/ ?

  惠勒說,向數據驅動的轉變,可以看做是科學從假設-檢驗到假設-生成的轉變。一位不願透露姓名的科學家擔心這會降低科學的創造力,但惠勒認為事實並非如此,她說:“這只是轉移了創造力。在某些方面,發揮創造力的空間反而更大了。你能夠用相對較低的成本嚐試一些瘋狂的想法。”

- |: Y$ }7 f( r; L

  好處還不止這些。位於英國諾福克的計算生物學研究中心——厄勒姆研究所(Earlham Institute)的生物信息學家馬特·鮑恩(Matt Bawn)說:“你的思路可能會被假說限製。最好是做一個沒有先入之見的公正觀察者,等待畫面從空白的畫布中浮現出來。”

( Z, h" @& a) a5 s  A

  但最大的好處是,數據驅動的研究總能在之前無法探究的複雜領域,提出迷人的新發現。


8 K+ r6 Q* ?7 W6 n

  算法與DNA

  斯蒂芬·肖恩菲爾德(Stefan Schoenfelder)也是巴布拉漢姆研究所的研究員,研究染色體的 3D 形狀及其對基因表達的影響。人類基因組工程完成之時,發現的基因數量遠比預想的少——只有 2.4 萬個,大約是科學家估計的最小數量的四分之一。其餘的 DNA 根本不編碼蛋白質。

& S4 a+ m5 g  e' b; S9 B

  後來人們意識到,非編碼區域的作用之一是調節基因表達:在一些細胞中開啟表達,在另一些中關閉表達。它們實現這種功能的方式之一,就是在不同細胞中折疊成不同形狀。


. E$ a) O$ R' g

  人們通常將染色體描繪為“X”形,但它們只有在細胞分裂時才是這種形態。在其他時間裏,幾乎在所有細胞中,兩米長的 DNA 都會蜷曲成複雜的一團。所以,即使某段 DNA 與染色體上的基因相距很遠,它仍能有可能對其起調節作用,因為在實際情況下,兩者有密切的物理接觸,肖恩菲爾德講道。“所以研究 3D 狀態下的染色體很重要:如果你只觀察序列,假設相鄰的基因才會受到調節,常常會得出錯誤的結論。”

7 J* L( y2 t8 L" P. b# B/ x' j

  最重要的是,染色體折疊的方式很不一樣,肖恩菲爾德說。“相同的基因組,在T細胞中與在肝細胞和腦細胞中的構象都不一樣,因此它們表達的基因不同,細胞的功能也不同。”

: ]8 y& p8 F0 g

  研究各個情況下染色體的 3D 形狀是很困難的,這涉及細胞類型的測序,和發現其與其他細胞類型的差異、分析是哪段 DNA 產生了相互作用。但首先 ,需要用一種被稱為交聯和連接的複雜技術處理 DNA,進行測序,從而判斷哪些 DNA 片段是相近的。如果兩段原本相距很遠的 DNA 在細胞核中緊密相鄰,那有可能這種折疊方式就是為了方便其中一個基因調控另一個。但在更普遍的情況下,這只是 DNA 隨機纏結的結果。


% p( \1 A4 i+ i; P/ J

  要從噪聲中分辨出真正起作用的關聯段,需要對數十億數據進行分析,找出那些出現頻率較高的基因連接片段。這就需要算法發揮作用了。一旦找到染色體中哪幾對片段有相互接觸,你就可以在此基礎上用其他算法進行 3D 建模了。

, F$ M" E9 b: |6 N" \. \

  肖恩菲爾德說:“這整個領域只有 15 年的曆史。”他還說,在這之前,“我從來沒考慮過基因組的形狀,我認為它就像一團塞入細胞核的意大利面。而它到底怎樣塞入直徑大約 5 微米的細胞核中,我覺得這只是怎麼安排的問題。”


# ~, n3 k! N( O8 V) m4 o/ i9 z

  “讓我震驚的是結構微調,即使在這種極度壓縮的條件下,結構微調依然存在。”染色體的 3D 形狀,以及這種形狀的染色體中哪些基因會對另一些起調控作用,將告訴我們人類體內的 200 多種細胞是如何產生的。


% ~' n4 a) j2 q/ v, n) P# _5 w! ^' J/ G

  與此同時,麥克維恩指出,基因組研究迫使臨床醫生對多發性硬化(multiple sclerosis)這種疾病完全重新分類。他說:“我們發現了 250 多個增加患病風險的基因片段,由此可以對個人的患病風險作出較準確的判斷。這些基因還使我們發現了它與類風濕性關節炎等疾病的重合之處:某些增加多發性硬化患病風險的基因,也會降低類風濕性關節炎的風險。”


9 t# K. x5 G7 f& o' |) F

  麥克維恩接著說:“因此我們發現,盡管多發性硬化表現出神經退行性疾病的症狀,它其實是一種自身免疫性疾病。目前已有四五家公司基於這一判斷推出了新的治療方案。”

0 l$ h; B0 S5 K1 s

  巴布拉姆研究所的伍爾夫·瑞克還有個令人激動、甚至有點科幻的故事要講。他研究表觀遺傳學,觀察細胞的化學環境如何影響基因表達。他的研究也要對 RNA(一種可以讀取 DNA 並製造蛋白質的信使分子)進行測序,了解它在不同細胞中的差異。他們的團隊對衰老尤其感興趣。

0 T" ~. E4 j# I; c

  五年前,科學家們發現(瑞克的工作也證實了這點),人體所有細胞中都有一個控製衰老的時鍾,即 DNA 甲基化(DNA methylation)。DNA 共有四種堿基:C(胞嘧啶)、A(腺嘌呤)、G(鳥嘌呤)和T(胸腺嘧啶)。隨著年齡的增長,我們的 DNA 中越來越多的 C 會被打上一個小小的化學標記,叫做甲基。要看懂這個時鍾十分簡單,數一下甲基數就行了。但這又一次涉及到了龐大的返回數據,只能用算法計算。


* Q1 Y% U- E2 K% o6 C

  裏克說:“通過讀取這個時鍾,我們可以預測你我的年齡,誤差不超過 3 年。它的準確度出奇的高,這是我們擁有的關於衰老最準確的生物標記。”


+ i# r. U* a0 P" m) C& H

  當然,“無論是對老化過程的解讀,還是用程序預測壽命”,都非常有意思。但裏克認為,這項研究的意義還在於我們可以打斷衰老時鍾:“我相信未來一定會發展出能夠減慢衰老時鍾的藥物和小分子。”


% ]& o# ?; X" c1 f/ y

  非凡的革命

  通過大數據來獲得永生可能有點不切實際,但每一位接受采訪的科學家都同意,算法主導、數據密集型基因組研究的興起已經改變了生命科學。它令老一輩科學家有時會看不懂新一輩同事的工作,也令現代研究中心的實驗室變得富餘,而能夠使用用電腦的辦公室變得緊缺。肖恩菲爾德認為,變化的步伐可能會“讓人迷失方向”。

9 Z  a( E2 o6 h

  他說:“現代生活太複雜了,13 年前我讀博士時掌握的技能已經完全跟不上現代科學發展的腳步。”但這些變化給基因組研究帶來的影響是正面的。人類基因組工程快要告一段落的時候,大家都特別興奮,相信解開了基因的謎題後,很多疾病很快就能被攻克。但這些疾病大多涉及多個基因,很是複雜,僅靠研究單個基因是不可能實現的。現在,借助新一代基因測序和篩選數據的工具,攻克這些疾病成為了可能。

" G0 S% D, \' Y

  肖恩菲爾德說:“現在我每做一個實驗,都能得到一兩億個數據點。我之前還以為這輩子也不會出現這樣的事,但短短幾年就實現了。我們能夠解決十年前想都不敢想的問題,這真是一場非凡的革命。”

收藏收藏 贊贊(1)
把本文推薦給朋友或其他網站上,每次被點擊增加您在本站積分︰1宣傳

本帖點贊的會員︰

累計簽到:2303 天
連續簽到:24 天
沙发
發表於 2019-6-30 06:24:41 | 只看該作者
VIP精品區,資源無限好賺金任務區,輕松賺金幣
加入VIP,享受高級特權宣傳賺金又升級,超級棒
辛苦了版主,謝謝版主您無私分享

回復樓主 親!! 現在是淩晨!妳失眠啦?餓啦?通宵加班?還是想WK啦?

 分享同時學會感恩,一句感謝的話語,就是最大的支持!  歡迎交流討論
您需要登錄後才可以回帖 登錄 | 立即注册

本版積分規則

c重要聲明:本論壇是以即時上載言論的方式運作,WK論壇對所有言論的真實性、立場及版權等,不負任何法律責任。而一切言論只代表發佈者個人意見,並非本網站之立場,讀者及用戶務必自行判斷內容之真實性。 由於本論壇受到「即時上載言論」運作方式所規限,故不能完全監察所有言論,若讀者及用戶發現有內容出現「真實性、立場及版權」等問題,請聯絡我們:[email protected]論壇有權刪除任何言論(刪除前或不會作事先警告及通知)| SiteMap[網站地圖] | DMCA

發表新帖 返回頂部