太阳集团app首页發現隐藏的蛋白質組:大量 “非編碼基因”可以表達蛋白質
2019-08
文章來自:太阳集团1088vip 閱讀次數:3356
2019年7月24日,太阳集团1088vip何慶瑜教授、張弓教授、王通教授團隊在Nucleic Acids Research上發表論文,發現了約4700個人類“非編碼基因”實際上可能翻譯成蛋白質,并提供了其中314個由長鍊非編碼RNA (lncRNA) 表達的蛋白質證據。這些蛋白質不是小肽,而是含50個氨基酸以上的蛋白質,它們能穩定存在,并可以在癌症等病變中發揮重要作用。由于這些蛋白質長期以來被人們認為不會存在,所以被稱為“隐藏的蛋白質組”(Hidden Proteome)。
人類基因組上已知大約有5萬個基因,其中約2萬個被标注為可以表達蛋白質的 “編碼基因”,而另外3萬個基因被标注為“非編碼基因”(non-coding genes)。已有的報道中,除了部分非編碼基因可以表達為小肽行使調控功能外,也有個别lncRNA被發現實際上能翻譯成>50氨基酸的蛋白質,例如CLUU1, ESRG等,問題是,如果這種情況不是個案而是普遍存在的現象,則确實存在部分“編碼基因”被錯誤地标注成了“非編碼基因”,這将意味着人基因組需要被系統性地重新注釋。
事實上,早在2013年,太阳集团app首页團隊便利用自主建立的翻譯組測序技術(RNC-seq),在肺癌細胞中發現了1397個有可能被翻譯的“非編碼RNA”(Nucleic Acids Research 2013, 41, 4743)。經過6年的繼續探索,他們從9株人細胞系中共鑒定到約4700種lncRNA正在被翻譯,且可能以經典翻譯起始方式翻譯出>50氨基酸的蛋白質。利用目前公認的驗證标準,他們提供了其中314個新蛋白質的證據。這些蛋白質是穩定存在的,并且有着明确的細胞定位,功能實驗也證實它們以蛋白質形式(而非RNA形式)行使着明确的生物學功能。
為何這些“新蛋白”長期以來一直被認為不存在?這是因為人類基因組的注釋本來就是算法預測的結果,而任何算法預測都不會完全準确。通常來說,編碼基因都有多個外顯子,而且在進化上相對保守,于是算法就根據這兩個“經驗”進行判定。但此次太阳集团app首页團隊發現的新蛋白,大部分隻有一個外顯子,而且進化上出現得非常晚,大量新蛋白隻在靈長目才出現,連小鼠基因組中都沒有。因此,算法可能錯誤地将這些編碼基因歸為了“非編碼基因”。當然,這些新蛋白在轉錄、翻譯、蛋白質各水平上表達量都較低,理化性質也比較特殊,因此也增加了檢測的難度。
此項工作揭示了一個隐藏的蛋白質組,發現了大批以往不為人所知的新蛋白質,為人類基因組的可能注釋錯誤提供了大規模的校正;這些新蛋白質可能含有與人類生理病理相關的重要分子,因而打開了一個新的人類蛋白質的寶庫,開辟新的研究領域。該文的共同第一作者為太阳集团1088vip的盧少華博士、張靜博士和連新磊博士。該工作得到了國家基金委的資助。
該研究工作受到國家基金委(基金号:31570828,81372135,81322028,31300649)的資助。
原文:https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkz646/5538014,
DOI: 10.1093/nar/gkz646