整天泡實驗室已out了，會寫代碼才是不被淘汰的關鍵

spetoct · 發表於 2018-11-1 12:02:02

下一代基因測序等新的生物醫學技術正在製造海量的數據，改變這個科學領域。這一趨勢帶來了過去無法想象的突破，也讓研究人員不得不奮起直追，好趕上先進技術的步伐。

　　安妮·柯克蘭（Anne Corcoran）說：“這讓我感覺自己老了。”她是位於英國劍橋的人類生物學研究中心——巴布拉漢姆研究所（Babraham Institute）的一名科學家。柯克蘭帶領的團隊在研究人類基因組與免疫係統、尤其是抵禦感染的抗體之間的關係，

　　用她自己的話說，她是一個“老派生物學家”，練就了一身使用移液管、培養皿和護目鏡的技術，那種坐在板凳上擺弄瓶瓶罐罐的工作被稱為“濕實驗”。回想自己早年的職業生涯，她說：“我很清楚凝膠上的基因長什麼樣。”

　　現如今僅有這些技能是不夠的。柯克蘭說：“十五年前我開始招博士的時候，他們全是擅長濕實驗室技術的。但現在我們招博士生的時候，首先考慮的是他們能不能處理複雜的生物信息分析。”現在，要想成為一名生物學家，你還得是個統計學家，甚至是程序員。你得會寫算法才行。

　　算法本質上是一組指令，即一組預先定義的步驟。菜譜也可以被視為一種算法，當然更明顯的算法是計算機程序。你確定了輸入，食材、數字或者隨便什麼，一步步運行算法（可以像“對每個數字加一”那麼簡單，也能像穀歌的搜索算法那麼複雜），就能得到輸出：蛋糕、搜索結果，或者一個 Excel 電子表格。

　　像柯克蘭這樣的研究者們需要用到算法，在她擔任團隊領導者的 17 年中，生物學發生了天翻地覆的變化。引發改變的原因，正是隨生物醫學技術，尤其是新一代測序技術發展而產生的海量數據。

　　不久之前，對整個基因組進行測序、確定 DNA 螺旋中所有 30 億個堿基對的順序還需要花費數年。人類基因組計劃（The Human Genome Project）首次確定了人類全套基因組序列，它從提出到 2003 年結束共耗費了 13 年時間、20 億英鎊（約合人民幣 180 億元）。而現在，新一代測序技術僅需 24 小時就能完成同樣的工作，花費不超過 1000 英鎊（人民幣 9100 元）。

　　這完全改變了科學家的工作方式。這不僅意味著他們需要幹的髒活變少了，需要具備的技能改變了，更意味著科學的整個過程，即從產生想法到完成驗證，都已經被顛覆。

　　許多年長的科學家都得了解之前沒有接觸過的技術，還得對學生進行指導。那些原本沒有教授現代生物學所需技術的學校也在你追我趕，爭相開設相關課程。但最重要的是，這些技術的出現為科學發現帶來了突破性的進展，這是在 20 年前、甚至 10 年前根本不可能實現的。

　　全基因組關聯研究

　　從巴布拉漢姆出發，只需十分鍾車程，就能到達欣克斯頓村（Hinxton），這裏坐落著另一個重要的生命科學中心，維爾康姆基金會桑格研究所（Wellcome Sanger Institute）。它最近滿 25 歲了，這裏的一磚一瓦都記錄了基因組學的飛速發展。

　　桑格研究所旁邊就是歐洲生物信息學研究所（the European Bioinformatics Institute），目前在這裏工作的莫裏茨·格斯登（Moritz Gerstung）回憶起往事，笑了出來。他說：“我的博士後研究就是在桑格做的。你幾乎一眼就能看出這建築是什麼時候設計的，用來做實驗的空間特別大，但是可以讓科學家們在電腦前坐著分析數據的地方卻沒有多少。”

　　牛津大學大數據研究所（Big Data Institute）的統計遺傳學教授吉爾·麥克維恩（Gil McVean）表示，這點在哪兒都一樣。如今，基因組研究的大部分工作都是在電腦上完成的，很少會用到實驗台。他說：“那些成立十五年以上的研究所裏，90% 都是濕實驗室，但如果你進去看看，就會發現幾乎讓人人都坐在電腦前。現在建立的生物醫學研究中心裏，僅有 10% 的濕實驗室，其他 90% 都是電腦計算實驗室。”

　　這並不是唯一的變化。麥克維恩認為：“科學界一個重大的變化，是人們漸漸拋棄之前那種專一、有針對性、假設引導的模式，即那種‘產生想法、設計實驗、進行實驗、驗證結果’的模式。”

　　在過去，你必須事先對某個基因可能起到的作用作出基本可靠的設想，也就是說，要對其生化作用通路展開合理的想象，判斷這個基因與某一疾病或特征的關聯。耗時的基因測序以及有限的電腦計算能力意味著，為了節約時間和金錢，在實驗之前你就要明確自己要找的是什麼。

　　但現在，你只需要收集大量的數據，讓數據決定假設是什麼，麥克維恩說道。如果你有 10000 個某種疾病患者的基因組和 10000 個健康人的基因組數據，那麼你就不再需要提前甄別出可能有關的基因，只要寫一個算法來比較這些數據，分析兩組的差異，然後找出與疾病有關的基因就行了。

　　這就是全基因組關聯研究（genome-wide association study），數據驅動時代一種常見的分析形式。理念很簡單，就是從一大群人中獲取基因組信息，進行測序，然後用算法來比較所有的 DNA。要比較的信息不僅包含大約 2.4 萬個編碼 DNA（即基因，只占基因組中的 1-2%），還包括那些目前仍然保持神秘的未編碼 DNA。算法也很簡單：例如，比較特定 DNA 突變在具有某種特征和不具有這種特征的人群中出現的頻率。如果這個突變在具有某種特征的人群中出現的頻率顯著高於預期，算法就會將其標記出來。

　　這種做法的難點在於，疾病大都很複雜，涉及成百上千個基因或未編碼 DNA 片段。因此，複雜的多維分析很快應運而生。雖然不會用到新的數學知識，但在如此龐大的任務中，算法必不可少。應用算法，通常能一次比較幾十個到數百個參數。

　　這和穀歌的搜索算法有點相似。對網頁進行排序的過程並不複雜——比如檢測你的搜索關鍵詞在頁面上出現的頻率、位置，以及到該頁面的鏈接數量等。但算法能夠結合數百種方法，同時完成數十億網頁的檢測，這是人力不所能及的。

　　癌症基因組

　　算法的應用給人來帶來了巨大的便捷。格斯登的研究領域——癌症基因組學可能是受益最大的領域之一，比如在白血病方面。

　　在某些情況下，這種給人致命打擊的疾病可以通過骨髓移植完全治愈。不過骨髓移植是一場大手術，它帶來的並發症也可能導致病人死亡。只有在無計可施的時候，醫生才會對白血病患者進行骨髓移植。

　　然而，預測哪種白血病最為致命十分困難。白血病的症狀非常複雜，醫生不一定能夠據此推斷出準確的預後。

　　因此，格斯登團隊的研究對 1500 名癌症患者的基因組進行測序，找出相關的 DNA 突變，然後判斷這些突變分別對應哪些症狀。他們共找到了 5000 種不同的突變和約 1000 種不同的組合，然後將這些組合按死亡風險的高低分為 11 類。格斯登表示：“這能讓臨床醫生做出更準確的決定。”

　　數據驅動帶來的影響還要比這大得多。南安普敦大學（University of Southampton）癌症免疫學教授埃德·詹姆斯（Edd James）認為，對腫瘤基因組進行測序已經在癌症治療方法中引發了“思維轉變”，“癌症不只是一大堆複製的細胞，如今我們對這一事實感到更加慶幸”。

　　一種癌症可能會包含數十種不同類型的細胞，每種細胞又有不同的 DNA 突變組合，需要使用不同的藥物進行治療。所以基因測序讓臨床醫生能夠對他們的病人（和腫瘤）選擇更有針對性的藥物。詹姆斯說：“以前，治療都是針對人群的，‘X% 的病人在接受這種治療後會有好轉’，但有了基因測序的信息之後，你能判斷每個個體是否適合這種治療。”

　　除了發現差異，基因測序也能反映不同癌症之間的共性。詹姆斯說，曆史上，癌症根據解剖部位來定義：如肺癌、肝癌、頭頸癌等，“但應用新一代測序技術，你會發現有些不同部位癌症之間的共同點比同一部位之間的還要多。這讓我們意識到，某些癌症（如乳腺癌）的特效藥也許能治療其他部位的癌症。”

　　格斯登支持這個觀點：“從遺傳學角度看，不同解剖部位的癌症存在大量重疊。甚至有人在某些前列腺癌中發現了 BRCA1（一種與乳腺癌密切相關的基因）。”

　　這種相似性也變得愈發重要。美國食品藥品監督管理局（Food and Drug Administration）最近批準一種抗癌藥物——派姆單抗（pembrolizumab）——用於治療任何出現錯配修複缺陷（一種 DNA 修複錯誤）跡象的癌症，這標誌著按基因而不是發病部位治療癌症的藥物開始獲批。

　　這一切都歸功於不斷湧現的數據流。

　　從生物到編程

　　桑格研究所研究致病菌基因組的數據科學家妮可·惠勒（Nicole Wheeler）表示：“我們很善於生成數據，結果得到了過多的數據。”麥克維恩也表示讚同：“根據摩爾定律，計算能力每 18 個月能翻一番。通過基因組測序和醫學成像、數字病理學采集到的生物醫學數據增長速率比這還要快。生物醫學數據遵循的是‘超級摩爾定律’。”

　　在本世紀初，生物學家自己檢查數據還是一件完全不可能的事。這也就意味著生物學家要麼聘用專人，要麼自己成為數據科學家。

　　安妮·柯克蘭說：“幾年前我們遇到了瓶頸。我們有許多數據，卻不知該如何處理。由此算法應運而生，處理數據，使其發揮最大價值。如果研究一個或幾個基因，還可以手動計算；但如果你要研究兩萬個基因表達，手動統計根本不現實。”

　　許多生物學家都像柯克蘭一樣，在實驗台和玻璃器皿之間成長起來，而不是電腦和辦公桌旁——他們不得不學著使用這些算法。柯克蘭說：“我覺得年長的科學家常常被算法嚇倒，他們比對年輕的同事可能會過於依賴，或者更願意承認這點。”

　　柯克蘭發展出了關於算法原理的 “實用知識”，但她也承認，“這是一個有些脆弱的時期，團隊領導看不懂下屬們做的工作。”

　　柯克蘭在巴布拉漢姆研究所的同事沃爾夫·瑞克（Wolf Reik）對此表示同意。瑞克領導著一個表觀遺傳學研究團隊，他說，老一輩科學家的思考方式完全不同，“這點很有趣——開組會的時候，我的員工會把基因組當做一個整體來思考問題；而我會分析單個基因，然後進行歸納，因為這就是我受到的思維訓練。”

　　他認為，對處在他這個位置的人來說，理解新一輩科學家的工作很關鍵，“最關鍵的是要對如何使用算法工具形成直覺理解……畢竟工作中最後會有我的署名。”

　　另一方面，年輕科學家在數據環境下長大，而且其中一些人之前就接觸過相關知識。格斯登本科學的是物理，不過有些團隊負責人也是如此，如麥克維恩。但一些原本學習生物的人現在卻學起了編程。在桑格研究所研究基因型與人類不同表現型關係的博士後蔡娜（音，Na Cai）說：“我本科學的是生物，那才是我的專業領域。”

　　“而現在我每天做的是統計分析。這就像學習一種或幾種新的語言一樣，我得把之前大腦中生化路徑和流程圖的思維方式，轉化成一種更結構化的編程思維。”

　　與她共事的那些年長科學家都“挺跟得上發展潮流”，她說道，“他們可能自己不會寫代碼，但是能看懂寫好的代碼能做什麼分析。”

　　蔡娜的同事惠勒也是生物學出身，後來學起了編程。惠勒說：“我沒有傳統的軟件工程背景，我是邊讀博士邊學了編程。（我編的程序）不是最高效的，也不是最迷人的，但編程的目的是明確你要進行怎樣的計算，然後實現它。”

　　為了滿足這些需求，這幾年本科學位發生了很大變化。比如，紐卡斯爾大學（Newcastle University）在生物係本科課程中增設了生物信息學。雷丁大學（Reading University）的畢業設計課題中也包含了計算生物學，不過學生們很少在前幾年選修計算課程，所以他們會在最後一年“臨時抱佛腳”。倫敦帝國理工學院（Imperial College London）已經開設了生物信息學課程，正計劃給大一大二學生增設編程課。惠勒說：“我覺得人們已經認識到，生物學涉及的數據比過去要多得多，因此人們需要具備處理這些數據的技能。”

　　但是，改變過程很慢，而且有時候會受到學生們的抵觸，畢竟有些人選擇生物可不是為了學編程。柯克蘭表示：“我只能說本科課程正在追趕這一趨勢，但總體而言還沒趕上，從計算機相關碩士課程的激增就能看出這點。”

　　當然，改變還是必要的。即使是那些最需要做濕實驗工作的科學家，在接受采訪時也表示他們做實驗的時間比以往減少了 50%；更有一些人表示，這一比例已經降到了 10%，例如蔡娜的例子，自從專門研究生物信息學以來就根本就沒做過濕實驗。

　　惠勒說，向數據驅動的轉變，可以看做是科學從假設-檢驗到假設-生成的轉變。一位不願透露姓名的科學家擔心這會降低科學的創造力，但惠勒認為事實並非如此，她說：“這只是轉移了創造力。在某些方面，發揮創造力的空間反而更大了。你能夠用相對較低的成本嚐試一些瘋狂的想法。”

　　好處還不止這些。位於英國諾福克的計算生物學研究中心——厄勒姆研究所（Earlham Institute）的生物信息學家馬特·鮑恩（Matt Bawn）說：“你的思路可能會被假說限製。最好是做一個沒有先入之見的公正觀察者，等待畫面從空白的畫布中浮現出來。”

　　但最大的好處是，數據驅動的研究總能在之前無法探究的複雜領域，提出迷人的新發現。

　　算法與DNA

　　斯蒂芬·肖恩菲爾德（Stefan Schoenfelder）也是巴布拉漢姆研究所的研究員，研究染色體的 3D 形狀及其對基因表達的影響。人類基因組工程完成之時，發現的基因數量遠比預想的少——只有 2.4 萬個，大約是科學家估計的最小數量的四分之一。其餘的 DNA 根本不編碼蛋白質。

　　後來人們意識到，非編碼區域的作用之一是調節基因表達：在一些細胞中開啟表達，在另一些中關閉表達。它們實現這種功能的方式之一，就是在不同細胞中折疊成不同形狀。

　　人們通常將染色體描繪為“X”形，但它們只有在細胞分裂時才是這種形態。在其他時間裏，幾乎在所有細胞中，兩米長的 DNA 都會蜷曲成複雜的一團。所以，即使某段 DNA 與染色體上的基因相距很遠，它仍能有可能對其起調節作用，因為在實際情況下，兩者有密切的物理接觸，肖恩菲爾德講道。“所以研究 3D 狀態下的染色體很重要：如果你只觀察序列，假設相鄰的基因才會受到調節，常常會得出錯誤的結論。”

　　最重要的是，染色體折疊的方式很不一樣，肖恩菲爾德說。“相同的基因組，在T細胞中與在肝細胞和腦細胞中的構象都不一樣，因此它們表達的基因不同，細胞的功能也不同。”

　　研究各個情況下染色體的 3D 形狀是很困難的，這涉及細胞類型的測序，和發現其與其他細胞類型的差異、分析是哪段 DNA 產生了相互作用。但首先，需要用一種被稱為交聯和連接的複雜技術處理 DNA，進行測序，從而判斷哪些 DNA 片段是相近的。如果兩段原本相距很遠的 DNA 在細胞核中緊密相鄰，那有可能這種折疊方式就是為了方便其中一個基因調控另一個。但在更普遍的情況下，這只是 DNA 隨機纏結的結果。

　　要從噪聲中分辨出真正起作用的關聯段，需要對數十億數據進行分析，找出那些出現頻率較高的基因連接片段。這就需要算法發揮作用了。一旦找到染色體中哪幾對片段有相互接觸，你就可以在此基礎上用其他算法進行 3D 建模了。

　　肖恩菲爾德說：“這整個領域只有 15 年的曆史。”他還說，在這之前，“我從來沒考慮過基因組的形狀，我認為它就像一團塞入細胞核的意大利面。而它到底怎樣塞入直徑大約 5 微米的細胞核中，我覺得這只是怎麼安排的問題。”

　　“讓我震驚的是結構微調，即使在這種極度壓縮的條件下，結構微調依然存在。”染色體的 3D 形狀，以及這種形狀的染色體中哪些基因會對另一些起調控作用，將告訴我們人類體內的 200 多種細胞是如何產生的。

　　與此同時，麥克維恩指出，基因組研究迫使臨床醫生對多發性硬化（multiple sclerosis）這種疾病完全重新分類。他說：“我們發現了 250 多個增加患病風險的基因片段，由此可以對個人的患病風險作出較準確的判斷。這些基因還使我們發現了它與類風濕性關節炎等疾病的重合之處：某些增加多發性硬化患病風險的基因，也會降低類風濕性關節炎的風險。”

　　麥克維恩接著說：“因此我們發現，盡管多發性硬化表現出神經退行性疾病的症狀，它其實是一種自身免疫性疾病。目前已有四五家公司基於這一判斷推出了新的治療方案。”

　　巴布拉姆研究所的伍爾夫·瑞克還有個令人激動、甚至有點科幻的故事要講。他研究表觀遺傳學，觀察細胞的化學環境如何影響基因表達。他的研究也要對 RNA（一種可以讀取 DNA 並製造蛋白質的信使分子）進行測序，了解它在不同細胞中的差異。他們的團隊對衰老尤其感興趣。

　　五年前，科學家們發現（瑞克的工作也證實了這點），人體所有細胞中都有一個控製衰老的時鍾，即 DNA 甲基化（DNA methylation）。DNA 共有四種堿基：C（胞嘧啶）、A（腺嘌呤）、G（鳥嘌呤）和T（胸腺嘧啶）。隨著年齡的增長，我們的 DNA 中越來越多的 C 會被打上一個小小的化學標記，叫做甲基。要看懂這個時鍾十分簡單，數一下甲基數就行了。但這又一次涉及到了龐大的返回數據，只能用算法計算。

　　裏克說：“通過讀取這個時鍾，我們可以預測你我的年齡，誤差不超過 3 年。它的準確度出奇的高，這是我們擁有的關於衰老最準確的生物標記。”

　　當然，“無論是對老化過程的解讀，還是用程序預測壽命”，都非常有意思。但裏克認為，這項研究的意義還在於我們可以打斷衰老時鍾：“我相信未來一定會發展出能夠減慢衰老時鍾的藥物和小分子。”

　　非凡的革命

　　通過大數據來獲得永生可能有點不切實際，但每一位接受采訪的科學家都同意，算法主導、數據密集型基因組研究的興起已經改變了生命科學。它令老一輩科學家有時會看不懂新一輩同事的工作，也令現代研究中心的實驗室變得富餘，而能夠使用用電腦的辦公室變得緊缺。肖恩菲爾德認為，變化的步伐可能會“讓人迷失方向”。

　　他說：“現代生活太複雜了，13 年前我讀博士時掌握的技能已經完全跟不上現代科學發展的腳步。”但這些變化給基因組研究帶來的影響是正面的。人類基因組工程快要告一段落的時候，大家都特別興奮，相信解開了基因的謎題後，很多疾病很快就能被攻克。但這些疾病大多涉及多個基因，很是複雜，僅靠研究單個基因是不可能實現的。現在，借助新一代基因測序和篩選數據的工具，攻克這些疾病成為了可能。

　　肖恩菲爾德說：“現在我每做一個實驗，都能得到一兩億個數據點。我之前還以為這輩子也不會出現這樣的事，但短短幾年就實現了。我們能夠解決十年前想都不敢想的問題，這真是一場非凡的革命。”

jos921 · 發表於 2019-6-30 06:24:41

辛苦了版主，謝謝版主您無私分享

WK綜合論壇, WK综合论坛

[人生] 整天泡實驗室已out了，會寫代碼才是不被淘汰的關鍵 [複製鏈接]

本帖點贊的會員︰

回復樓主親！！現在是淩晨！妳失眠啦？餓啦？通宵加班？還是想WK啦？

WK綜合論壇, WK综合论坛

[人生] 整天泡實驗室已out了，會寫代碼才是不被淘汰的關鍵 [複製鏈接]

本帖點贊的會員︰

回復樓主 親！！ 現在是淩晨！妳失眠啦？餓啦？通宵加班？還是想WK啦？

回復樓主親！！現在是淩晨！妳失眠啦？餓啦？通宵加班？還是想WK啦？