太阳集团app首页發現隐藏的蛋白質組：大量 “非編碼基因”可以表達蛋白質

-14-

2019-08

文章來自：太阳集团1088vip 閱讀次數：3356

2019年7月24日，太阳集团1088vip何慶瑜教授、張弓教授、王通教授團隊在Nucleic Acids Research上發表論文，發現了約4700個人類“非編碼基因”實際上可能翻譯成蛋白質，并提供了其中314個由長鍊非編碼RNA (lncRNA) 表達的蛋白質證據。這些蛋白質不是小肽，而是含50個氨基酸以上的蛋白質，它們能穩定存在，并可以在癌症等病變中發揮重要作用。由于這些蛋白質長期以來被人們認為不會存在，所以被稱為“隐藏的蛋白質組”（Hidden Proteome）。

人類基因組上已知大約有5萬個基因，其中約2萬個被标注為可以表達蛋白質的 “編碼基因”，而另外3萬個基因被标注為“非編碼基因”(non-coding genes)。已有的報道中，除了部分非編碼基因可以表達為小肽行使調控功能外，也有個别lncRNA被發現實際上能翻譯成>50氨基酸的蛋白質，例如CLUU1, ESRG等，問題是，如果這種情況不是個案而是普遍存在的現象，則确實存在部分“編碼基因”被錯誤地标注成了“非編碼基因”，這将意味着人基因組需要被系統性地重新注釋。

事實上，早在2013年，太阳集团app首页團隊便利用自主建立的翻譯組測序技術（RNC-seq），在肺癌細胞中發現了1397個有可能被翻譯的“非編碼RNA”（Nucleic Acids Research 2013, 41, 4743）。經過6年的繼續探索，他們從9株人細胞系中共鑒定到約4700種lncRNA正在被翻譯，且可能以經典翻譯起始方式翻譯出>50氨基酸的蛋白質。利用目前公認的驗證标準，他們提供了其中314個新蛋白質的證據。這些蛋白質是穩定存在的，并且有着明确的細胞定位，功能實驗也證實它們以蛋白質形式（而非RNA形式）行使着明确的生物學功能。

為何這些“新蛋白”長期以來一直被認為不存在？這是因為人類基因組的注釋本來就是算法預測的結果，而任何算法預測都不會完全準确。通常來說，編碼基因都有多個外顯子，而且在進化上相對保守，于是算法就根據這兩個“經驗”進行判定。但此次太阳集团app首页團隊發現的新蛋白，大部分隻有一個外顯子，而且進化上出現得非常晚，大量新蛋白隻在靈長目才出現，連小鼠基因組中都沒有。因此，算法可能錯誤地将這些編碼基因歸為了“非編碼基因”。當然，這些新蛋白在轉錄、翻譯、蛋白質各水平上表達量都較低，理化性質也比較特殊，因此也增加了檢測的難度。

此項工作揭示了一個隐藏的蛋白質組，發現了大批以往不為人所知的新蛋白質，為人類基因組的可能注釋錯誤提供了大規模的校正；這些新蛋白質可能含有與人類生理病理相關的重要分子，因而打開了一個新的人類蛋白質的寶庫，開辟新的研究領域。該文的共同第一作者為太阳集团1088vip的盧少華博士、張靜博士和連新磊博士。該工作得到了國家基金委的資助。

該研究工作受到國家基金委（基金号：31570828，81372135，81322028，31300649）的資助。

原文：https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkz646/5538014,

DOI: 10.1093/nar/gkz646

[打印]

[分享]