Download


ORIGINS OF GENE, GENETIC CODE, PROTEIN AND LIFE(Comprehensive view of life systems from the GNC-SNS primitive genetic code hypothesis)

Kenji Ikehara

Department of Chemistry, Nara Women's University, Kita-Uoya-Nishi-machi, 630-8506, Nara, Japan Fax: 0742-20-3402; E.Mail:ikehara@cc.nara-wu.ac.jp

(Received 14 May 2001 ,Accepted 31 May 2001)

Summary

We have investigated on the origins of gene,genetic code, protein and life by using 6 indexes (hydropathy, alpha-helix, beta-sheet and beta-turn formabilities, acidic amino acid content and basic amino acid content) necessary for appropriate three-dimensional structure formation of globular proteins. From analysis of 7 microbial genome data, it was found that the six indexes are almost independent on the change of GC content of a gene followed by the concomitant change of about half number of amino acid compositions of proteins. By using these properties, we firstly obtained a conclusion that newly-born genes might be produced from the nonstop frames on antisense strands of microbial GC-rich genes (GC-NSF(a)) on the present earth and from SNS repeating sequences ((SNS)n) similar to the GC-NSF(a) on the primitive earth (S and N mean G or C and either of four bases, respectively). We have further proposed that the universal genetic code used by most organisms on the present earth could be derived from the SNS primitive genetic code. Next, by using four basic conditions for globular protein formation (hydropathy, alpha-helix, beta-sheet and beta-turn formations), we searched for a much simpler code than the SNS code but can still encode water-soluble globular proteins at a high probability. From the results, we obtained another conclusion on the primitive genetic code, stating that the universal genetic code was originated through the SNS code from the GNC code encoding four amino acids (Gly [G], Ala [A], Asp [D] and Val [V]) as the most primitive genetic code. Furthermore, we have proposed the [GADV]-protein world hypothesis on the origin of life, based on the GNC-primeval genetic code hypothesis, which is quite different from the RNA world hypothesis accepted by many researchers world-wide. We have also provided another hypothesis on protein production, suggesting that proteins have originally produced by random peptide formation of amino acids restricted in specific amino acid compositions termed as GNC-, SNS- and GC-NSF(a)-0th order structures of proteins. Thus, we have postulated the four hypotheses, which may reasonably explain the origins of gene, genetic code, protein and life in the fundamental system of life, mainly based on the comprehensive GNC-SNS primitive genetic code hypothesis. It is also expected that basic properties of extant genes and proteins could be made clear, based on the above four hypotheses.

(Key Words: Origin of Gene, Origin of Genetic Code, Origin of Protein, Origin of Life, GNC-SNS Primitive Genetic Code Hypothesis)




「遺伝子、遺伝暗号、蛋白質および生命の起原」 (GNC-SNS原始遺伝暗号仮説から見た生命の
基本システム)

池原 健二  奈良女子大学理学部化学科 〒630-8506 奈良市北魚屋西町

Email ikehara@cc.nara-wu.ac.jp

はじめに

 近年、各種の細菌や酵母などの微生物、シロイヌナズナのような植物、線虫やショウジョウバエ、人などの動物に至るまで、生物が生きていく上で必要な遺伝子群全体の塩基配列、即ち、生物ゲノムの解析が急速に進んでいる[1]。それと共に、遺伝子によってコードされている蛋白質の一次構造情報、即ち、アミノ酸配列データも飛躍的に蓄積されている。その一方で、X線結晶構造解析技術が進歩した結果、蛋白質の3次構造についてはもちろんのことリボソームのような複合粒子の3次構造に関する知識までもが急速にデータベース内に蓄積されている[2]。これらのことは、私が学生であった30数年程も前は、DNAの塩基配列を特異的に加水分解する制限酵素が未発見であったこともあり、DNAの塩基配列の決定は不可能とさえ思われていたこと、また、リゾチーム(129アミノ酸)のような小さな蛋白質の3次構造がやっと決定されたにしか過ぎなかったことを考えると想像を絶するばかりである。それにもかかわらず、遺伝子や蛋白質がどのようにして形成されたのか、また、コドン内の塩基組成や蛋白質内の平均的アミノ酸組成がなぜ現在のような姿になっているのかなど生命の基本システムの理解については今なおほとんど分かっていない。
 それに対して、我々は、遺伝子がどのようにして生まれてきたのか、また、もしも、遺伝子が現在でも生まれているとしたらどのような場からなのかという遺伝子の起原についての考察から研究をスタートした[3, 4]。その後、遺伝暗号の起原についての解析を進め、遺伝暗号はGNCからSNSを経て、現存する多くの生物が使用しているいわゆる普遍遺伝暗号に至るというおおまかな遺伝暗号進化の道筋を独自のGNC-SNS原始遺伝暗号仮説として提案してきた[5-8]。また、それと同時に、遺伝子によってコードされる蛋白質の形成がどのように行われ現在のような姿になっているのかについても考察した[池原ら、未公表データ]。さらに、これらの考えを基に、我々は生命の起原についても合理的に説明できる仮説を提唱している[8, 9]。
 この総説では、まず、遺伝子発現の流れに沿って、遺伝子の起原の問題、遺伝暗号の起原の問題、蛋白質の起原の問題へと話を進める。その後、それら全体を包含する生命の起原の問題に触れることとする。その際、遺伝子や遺伝暗号、蛋白質や生命という4つの生命の基本システムに関する起原問題をGNC-SNS原始遺伝暗号仮説によって統一的に理解することを目指している我々の考えと、どちらかと言えばそれらを個々の問題として独立に扱かわれてきた他の研究者の考えとを比較しながら話を進めることとする。そうすることによって、我々の考えと他の研究者達の考えとで、どこがどのように違うのかが分かり、我々の考えを理解することも容易となると考えたからである。そして最後に、我々の提案する考えの正しいことを示すいくつかの根拠についても触れることとする。

A. 遺伝子の起原

 我々の考える遺伝子の起原 

 (1)現在の地球上での遺伝子形成に関するGC-NSF(a) 仮説

 微生物遺伝子のGC含量は、約20%から約75%までと極めて幅が広い(図1)。一般には、微生物毎に異なるこれらの幅広い染色体 DNAのGC含量変化は、GC含量を高める方向に変化させるGC変異圧やGC含量を低下させる方向に働くAT変異圧が長い年月に渡って作用することによって生み出されたと考えられている [10]。当然のことながら、遺伝子のGC含量が変化するとそれに応じて蛋白質内の約半数のアミノ酸組成が大きく変化する(図2)。しかし、アミノ酸の組成が変化しても蛋白質(酵素)の構造形成因子、即ち、蛋白質の二次・三次構造の形成傾向に大きな差が生じては困るはずであり、そのためには全体としての蛋白質が共通にもつ基本的な性質(疎水性/親水性度、α-ヘリックス、β-シート、β-ターン形成能、酸性および塩基性アミノ酸含量)は不変のはずである。蛋白質全体の三次構造を形成するための上記6つの因子を7種の細菌や古細菌のゲノムデータを用いて解析したところ、いずれの場合についても幅広いGC含量の変化に対して、確かにほぼ一定であることがわかった(図3)。このことは、逆に、機能を発揮できるような水溶性で球状の蛋白質が形成されるためには蛋白質の基本的なこれらの6つの構造因子が満足されること(一定範囲に入ること)が必要条件となっていることを示している(表1)
 我々は、このことを利用し、現在の地球上で新規な遺伝子が生み出されているとすれば何処なのかを調べた。そのため、幅広いGC含量を持つ様々な細菌や原生動物の実在遺伝子をデータベースから取り出し、そのアンチセンス鎖がコードする仮想的な蛋白質の6つの構造因子について調べた。その結果、GC含量の高い(50%以上)アンチセンス鎖がコードする仮想蛋白質は高い確率で実在蛋白質と同様の構造を取り得る可能性の大きいことが分かった(図4)。また、GC含量が60%を超えるような領域ではコドン使用のパターンに大きな偏りが見られることもあって、三つの停止暗号(TAA, TAGおよびTGA)のどれもがフレーム内に現れないノンストップフレーム(NSF)となる確率(pNSF)が急激に大きくなる(図5)。さらに、GC-NSF(a)がコードする仮想蛋白質にはグリシンの含量が大きくなること(主鎖の柔軟性が高まる)、全体の疎水性度が小さくなる傾向が見られること(疎水性コアの構造がゆるくなる)など、新たに出会う基質に対して柔軟に対応できるという性質も同時に存在することが分かった[4]。以上のような特性やGC-NSF(a)が現存のGC含量の高い細菌遺伝子で幅広く見られることから、GC-NSF(a)が現在の地球上で新規遺伝子を生み出す場として使用されている可能性が高いと我々は考えている[4]。
 

(2)原始地球上での遺伝子形成に関する(SNS)n原始遺伝子仮説

 上述のように、現在の地球上で新たに遺伝子を生み出す際には、GC-NSF(a)が新規遺伝子を形成する場として利用されている可能性が高い[3, 4]。このGC-NSF(a)仮想遺伝子のコドン内の塩基組成を見るとSNSに近い組成となっている(図6)。したがって、これを単純化した形はSNS、すなわち[(G/C)N(C/G)]となる。このことは、少なくともSNSに近い繰り返し配列が実際にGC含量の高い遺伝子として使用されていること、従って、SNSの繰り返し配列((SNS)n)それ自体が遺伝子として機能できる可能性の高いことを示している。
 次に本当に(SNS)nがコードする仮想蛋白質が現存の蛋白質と同等の構造を取り得るのかを確かめるため、乱数を用いてSNSの組成をランダムに発生させた。こうして得られたSNSの組成を持つ仮想的な遺伝子がコードする仮想蛋白質の内、現存の蛋白質が持つ6つの構造因子を満足するものを取り出した。その結果、コドンの塩基位置1番目ではGの含量がほぼ55%、Cが45%で最適であり、2番目ではGC,A,Tのいずれもがほぼ1/4ずつ含まれている際に現存の蛋白質と最も近い構造を取り得ることが分かった(図7)。コドン位置3番目では、遺伝暗号の縮重のため選択範囲を限定できなかったが、このことは少なくともコドン3番目のCやGの含量がそれぞれ55%と45%となる遺伝子でも蛋白質の6つの構造因子を満足できることを意味している。したがって、GC含量の極めて高い(SNS)n 遺伝子なら両鎖とも遺伝子として機能できる可能性を与えているのである。このことは、コドンの1番目ではGが55%、Cが45%で、コドンの2番目では4種の塩基が4分の1ずつ、コドンの3番目ではCが55%でGが45%というように組成さえ適当なものとして与えられれば、SNSがコードするわずか10種のアミノ酸で構成された蛋白質でも現存の球状蛋白質と基本的に同等な構造を取り得ることを示している[5, 6]。また、(SNS)n からなる仮想遺伝子をコンピュ-タ上で発生させ、その二次構造や疎水性プロフィールを調べたところ、確かに実在の蛋白質と同じようにそれぞれが適度に入り交じったプロフィールが得られた(図8)これらのことも、(SNS)n からなる配列が遺伝子として十分に機能できる可能性の高いことを示している。以上のような事実から、我々は(SNS)n配列を原始地球上で使われていた遺伝子の起原と考えているのである。
 以上で述べてきたように、我々は遺伝子の起原として、GC-NSF(a)や(SNS)nを考えているが、比較のためこれまでに考えられてきた他の研究者によって提唱されている遺伝子の起原に関する考え方とその問題点を簡単に述べることとする。
 

他の研究者によるこれまでの遺伝子の起原に関する考え方

(1)遺伝子重複説

 遺伝子が重複したと考えた場合、重複した一方の遺伝子機能を使って、それまでの生命活動を維持することができる。そのため、もう一方の遺伝子上に禁制突然変異を許容することが可能となる。このような考えに基づき、重複遺伝子の一方に変異を集積させることにより新たな機能をもった新規遺伝子を生成することができるというのが遺伝子重複仮説である(図9)[11]。確かに、アミノ酸配列が異なりながら、同じ触媒機能を持つものや、異なる触媒機能を持ちながらアミノ酸配列の似た蛋白質が数多く知られている。そのような蛋白質間のアミノ酸配列を見くらべると、明らかに有意な程度アミノ酸配列が一致することが多い。即ち、確かに遺伝子重複仮説が予測するように、同じ祖先遺伝子から派生したと考えることのできる複数の遺伝子が多数存在することが知られている。このことから、現在では、遺伝子重複仮説は間違いの無い考えとなっている。

(2)エキソン・シャッフリング説

 上で述べた遺伝子重複仮説とは別の遺伝子の形成過程を説明する考えとして、真核生物で見られるイントロンの存在を重視するエキソン・シャッフリング説が提案されている[12]。これは、最初に現れた遺伝子は、僅か15〜20アミノ酸からなる小さなポリペプチド鎖をコードするエキソンで、イントロンを通じてこれらを混ぜ合わせることにより、多様な蛋白質をコードする遺伝子が形成されるというものである(図10)。この考えが正しいのかどうかについては現在も議論されているところである。
  問題点:しかし、上の2つの考えは既存の遺伝子を基に新しい遺伝子の形成を論じたものであり、最初の遺伝子がどのようにして形成されたのかについては全く説明していない。そのため、これらの説には本来の遺伝子の起原説とは言えないという致命的な欠陥がある。

B 遺伝暗号の起原

我々の考える遺伝暗号の起原

(1)SNS 原始遺伝暗号仮説

 上記のように、我々は生命誕生の頃に生み出された遺伝子の起原として(SNS)n配列を提案している。このように、ある時期の遺伝子が限定された数(10種類)のアミノ酸しかコードしていなかったとすれば、遺伝子と遺伝暗号の密接な関連性から考えると、その時期の遺伝暗号は限定されたアミノ酸しかコードしなかったはずである。このことを一つの根拠に、我々は遺伝暗号の起原としてSNS原始遺伝暗号仮説を提案している(図11)[5-7]。
 

(2)GNC原初遺伝暗号仮説

 しかし、このSNS原始遺伝暗号にしても16種のコドンが10種のアミノ酸をコードするというかなり複雑なものである(図11)。地球上に初めて遺伝暗号が成立した時点で、16種のコドンが作り上げられ、10種のアミノ酸が用意されねばならなかったと考えることは困難であろう。この問題を解決するために、我々はSNS遺伝暗号よりもさらに単純な遺伝暗号の模索を行った。その際、現存の蛋白質が持つ6つの構造因子の内、酸性アミノ酸含量および塩基性アミノ酸含量の2つを除外した4つの構造因子(疎水性/親水性度、a-Helix、b-Sheet、b-Turn形成能)を水溶性で球状の原始蛋白質を形成するための条件とした。その理由は、10種を大きく下回る数のアミノ酸しかコードしない遺伝暗号が存在したと想定すると、酸性、塩基性、両方のアミノ酸が同時に含まれることは困難になるからである。また、酸性アミノ酸のみからなる蛋白質の場合には金属イオンのような陽イオンが、また、塩基性アミノ酸のみからなる蛋白質の場合にはハロゲンなどの陰イオンが不足する電荷を補うことができるというのも二つのアミノ酸含量を条件から除外した理由である。その結果、Gで始まる4つのコドン GNCとその変形であるGNGがコードする4種のアミノ酸からなる蛋白質なら、4つの条件を満足できることが分かった(図12、13)[8]。即ち、GNCがコードする4種のアミノ酸なら、現存の水溶性で球状の蛋白質が持つ二次・三次構造形成能と基本的には同等のそして最低限必要な能力を持ち得ることを示している。一方CやAそしてUで始まるコドン(CNG, CNC, ANG, ANC,UNG, UNC )によってコードされたアミノ酸4種や普遍遺伝暗号表の中で縦に取り出した4種のアミノ酸をコードするコドン(NUC, NUG, NCC, NCG, NAC,NAG, NGC, NGG)では蛋白質が構造を形成するための4つの条件を満足できないことも分かった(図13)。また、GNCでコードされる4種のアミノ酸の内、3つのアミノ酸は二次構造を形成するのに必要なそれぞれの高い能力を持っている(Ala [A]:α-ヘリックス、Val [V]:β-シ-ト、Gly[G]:β-ターン。その上、もう一つのAsp [D]は効果的な触媒作用を発揮するための官能基(カルボキシル基)を持っている。しかも、蛋白質が球状構造をとるのに必要な疎水性の高いアミノ酸([V])と親水性の高いアミノ酸([D])も含まれている(表2)。さらに、我々は[GADV]-アミノ酸が蛋白質の構造形成条件を満足できるアミノ酸の中で構造の最も簡単な4つのアミノ酸の組み合わせであることも確認している(図14)[8]。このことは、GNCでコードされる4種のアミノ酸が球状蛋白質を形成するための能力を持ったアミノ酸の組み合わせの中で、原始地球上で最も初期に現れたはずの4つのアミノ酸であることを意味している。事実、それらの4種の[GADV]-アミノ酸はミラーの放電実験によっても容易に生成できることが確認されているアミノ酸でもある [13]。我々は、さらに3種のアミノ酸で4つの構造条件を満足できるものがあるかどうかについても調べた。しかし、4つの条件を満足できた3アミノ酸の組み合わせ([Asp, Leu およびTyr], [Asp, Tyr およびMet][Glu, Phe および Ile])は、いずれの場合も3種のアミノ酸の普遍遺伝暗号表内の位置がバラバラである上に、少なくとも一つは構造がかなり複雑であった。したがって、これらの事実は、SNS原始遺伝暗号の前に使用されていた遺伝暗号はGNCがコードする4種のコドンであり、それ以上簡単な遺伝暗号は存在しなかったことを強く示唆している。
 以上のように、我々はSNSやGNCを現在の普遍遺伝暗号やミトコンドリアで使用されている遺伝暗号の起原と考えているが、ここでも比較のため、これまでに他の研究者によって考えられてきた遺伝暗号の起原に関する説とその問題点を簡単に説明することとする。
 

他の研究者によるこれまでの遺伝暗号の起原

(1)ミトコンドリア型遺伝暗号起原説

 ミトコンドリア型遺伝暗号(20種のアミノ酸、64通りの遺伝暗号)が普遍遺伝暗号よりも構成が単純であり、必要最小限の tRNAで翻訳している遺伝暗号であることを主たる根拠として、ミトコンドリア型の遺伝暗号が原始遺伝暗号であると考える説である[14]。
 >問題点:しかし、このようなミトコンドリア型の遺伝暗号が最も初期に現れた原始遺伝暗号だとすれば、最も初期の遺伝暗号が成立する時点で、約60通りのコドン(遺伝暗号)と20種のアミノ酸が必要であり、最初から使われる遺伝暗号としては複雑すぎる(図15)。そのため、現在多くの生物で使用されている普遍遺伝暗号の起原をミトコンドリア型の遺伝暗号に求めるのは困難であると我々は考えている。
 

(2)WWW仮説

 これは、生命の起源に関するRNAワールド仮説[後で詳述]とヌクレオチドの代謝経路を重視することによって提案されている遺伝暗号の起原説である。即ち、ヌクレオチド構造の単純さやヌクレオチド代謝の経路から考えれば、最初に合成されたヌクレオチドはGやCではなく、AとUであるとの推測から、最初に出現した遺伝暗号はAとUだけから構成された三連塩基コドン(WWW:(WはAまたはUを示す))であったと考えるものである(図16)[15, 16]
 問題点:この考えにしたがえば、最初に使われたアミノ酸はPhe、Leu、Tyr、Ile、Asn、Lysの6種、またはこれにMetを付け加えた7種ということになる(図16)。しかし、これらのアミノ酸は[GADV]-アミノ酸と比べかなり複雑な構造をしたものである。しかも、7種のアミノ酸を含みながら酸性アミノ酸をコードできない。また、疎水性アミノ酸が過剰に含まれている上に、ターンやコイルを形成する傾向の強いアミノ酸が少なすぎるため、我々が考えているような蛋白質の構造形成に必要な最低限の条件である4つの構造因子を満足できない。そのため、このようなWWW暗号によってコードされたアミノ酸だけで構成された蛋白質では水溶性で球状の蛋白質を形成することはできない可能性が大きいという問題が存在する。

C. 蛋白質の起原

 次に、蛋白質はどのようにして形成されてきたのかを考えることとしよう。蛋白質は、遺伝暗号によって規定されているトリプレット(3連塩基)を単位とする遺伝情報に基づいてアミノ酸配列が形成され、3次構造が形成されることは良く知られた事実である。したがって、これまでに説明してきた遺伝子や遺伝暗号の起原はそのまま蛋白質の起原と対応しているはずである。これらの事実から、我々独自の遺伝子や遺伝暗号の起原に基づいて、蛋白質の起原や形成機構を合理的に推定することができると我々は考えている。ここでは、理解を容易とするために他の研究者によって考えられてきた蛋白質の起原とその問題点から話を進めることとする。
 

他の研究者によるこれまでの蛋白質の形成に関する考え方

(1)アミノ酸配列仮説(Sequence仮説)

 これは、特定の蛋白質が形成されるためには、それに対応するアミノ酸の配列が形成されねばならないこと、言いかえれば、適当なアミノ酸配列を形成することが活性な蛋白質を形成する上で必須であるというごく当然に思える考え方である。この考えにしたがえば、あるアミノ酸配列を持った活性な蛋白質ができるためには、ランダムに並べた時に生じ得るすべてのアミノ酸配列の中から、目的の機能を持った一つの配列を選択したということになる(図17)[17]。
 問題点:しかし、蛋白質は20種類のアミノ酸が小さいものでも約100個のペプチド結合で結合した高分子である。従って、100個のアミノ酸からなる小さな蛋白質であっても、その配列多様度は計算上、20100=約10130 ものとてつもない大きさとなる [17]。ちなみに、宇宙の全原子数は9x1078と言われている [16]が、これよりもはるかに大きな数字である。このような多様度を持つ配列空間の中で、全ての場合を試行しながら、現在使用している一つの特定のアミノ酸配列を選択したとは到底考えることができないという大問題がこの考えにはある。
 そこで、このような問題を避けるために、一般的には次のような説明がなされている。
 

(2)蛋白質構造仮説(Structure 仮説)

 これは活性な蛋白質を形成するためにはアミノ酸配列そのものよりも蛋白質の構造を重視する考えで、特定の蛋白質と同様の3次構造をとることさえできれば、アミノ酸配列が違っていても同じ活性を持ち得るはずであるとする考えである。この考えによれば、極性アミノ酸と非極性アミノ酸の存在位置によって決定される相互作用の数や割合が重要で、この相互作用の数や割合が適当であれば、今、着目している特定のアミノ酸配列を持つ蛋白質と同等の球状で水溶性の蛋白質を作り上げることができるということになる。リボヌクレアーゼを例として、格子モデルに基づいて計算された結果によると、活性な酵素(蛋白質)と同じ機能や構造を持ち得る配列は10120オーダーにも達すると言われている(図18)[17]。したがって、活性な酵素はその内の一つをたまたま利用しているにすぎないと考えるのである。確かに、異なるアミノ酸配列でありながら、同じ触媒活性とほぼ同様の三次構造を持つ相同な蛋白質が多数見出されることから、これは正しい考えであるように見える。
 問題点:しかし、実際の蛋白質に含まれる一次構造(アミノ酸配列)から三次構造を形成するには極性、非極性アミノ酸の割合以外にα-へリックスやβ-シート構造などの二次構造形成能力も重要である。しかも、このような二次構造の形成には主鎖の結合の回転を束縛しているペプチド結合の存在が重要である。にもかかわらず、(1)この格子モデルはペプチド結合の存在を無視したような単純化しすぎたモデルであること。(2)その上、このモデルにしたがえば、同じ活性を示す蛋白質のアミノ酸配列は必ずしも似ている必要がないということになる。しかし、同じ活性と同じような構造を持ついわゆる相同蛋白質では、通常、保存されたアミノ酸領域が少なくとも30〜40%存在するという事実と矛盾する。なぜなら、相同な蛋白質は共通の祖先蛋白質から生み出されたものであり、蛋白質構造仮説の予測するように独立に選択され、生み出されたのではないことを保存領域の存在が明白に示しているからである。以上のような観点から、この説にも大きな問題があると我々は考えている。
 

我々の考える蛋白質の起原

 それでは、蛋白質が生み出される場や経路をどのように考えたら良いのであろうか。当然のことながら、蛋白質の生成過程や起原は遺伝子の起原や遺伝暗号の起原と密接に関連している。したがって、我々は、蛋白質がアミノ酸配列仮説や蛋白質構造仮説が予測するように形成されてきた訳ではなく、原始遺伝暗号であるGNCやSNSによって決められる少数種のアミノ酸組成からなる極めて小さな多様度、即ち、100個のアミノ酸からなる蛋白質の場合で計算すると、GNCの場合には4100=約1060の多様度の、SNSの場合は10100オーダーの多様度の、極めて高い確率で生み出される球状蛋白質の中から、生命が望む活性を示すものを選択することによって生み出されてきたのだと考えている(図19(A))。そこで、原始遺伝暗号時代の蛋白質の形成に対してはGNC-0次構造仮説、SNS原始遺伝暗号時代の蛋白質の形成に対してはSNS-0次構造仮説という名称を与えたい。このような0次構造という用語は聞きなれない言葉であり、その内容をすぐには理解し難いかもしれない。そこで、図19(B)を使ってもう少し具体的に説明することとする。
 これまでは1次元的な情報を提供するだけの遺伝子が蛋白質の合成を指令していることもあって、蛋白質の形成は遺伝子によって決められる1次構造と呼ばれるアミノ酸配列が蛋白質の構造形成の出発点であると考えられてきた。しかし、我々は遺伝子や遺伝暗号の起原を考察する過程で、蛋白質の構造形成にとって、1次構造であるアミノ酸配列よりさらに基本的で重要な要素として、ある特異なアミノ酸組成があるのだと考えている。我々の考えによれば、実は、特定のアミノ酸組成によって規定されたアミノ酸だからこそ、それをランダムに結合することによって水溶性で球状の蛋白質を高い確率で作ることができるのだということになる。このような考えを端的に言い表すため、1次構造であるアミノ酸配列の前段階という意味で蛋白質の0次構造という言葉を使うこととしたのである。我々は基本的な0次構造として、GNCがコードする4種のアミノ酸からなるアミノ酸組成やSNSがコードする10種のアミノ酸からなるアミノ酸組成を考えている。そして、これらの考え方に対してGNC-0次構造仮説およびSNS-0次構造仮説と呼ぶこととしたのである。言いかえれば、蛋白質を効果的に形成するために、遺伝暗号の形成過程と対応して、まず最初はGNC-0次構造が利用されていたのであり、その後になって、SNS-0次構造が利用されたのである。また、今日では新たに蛋白質を生み出す必要が生じた時にはSNS-0次構造と類似のGC-NSF(a)が規定するアミノ酸組成(GC-NSF(a)-0次構造または近似SNS-0次構造を利用することによって蛋白質が生み出されているのだと我々は考えている(図19)
 これまで述べてきた遺伝子や遺伝暗号、蛋白質は、当然の事ながら生命の活動にとって最も基本的で重要なものである。しかも、GNC原初遺伝暗号仮説は生命が生まれたはずの頃の遺伝暗号であり(図11)、そのGNCがコードする4種のアミノ酸([GADV])は球状蛋白質を形成できる極めて単純なアミノ酸の組み合わせとなっている。これらのことを考慮し、我々は以下のような独自の生命の起原に関する仮説にも到達した[8, 9]。

D. 生命の起原

我々の考える生命の起原

(1)[GADV]蛋白質ワールド仮説

 我々のGNC原初遺伝暗号仮説に基づけば、最も初期の蛋白質はGNCによりコードされる4種のアミノ酸[GADV]からなる単純な蛋白質であったということになる。このような単純な組成の[GADV]-蛋白質であっても、以下に示すような機能を持つ蛋白質として重要で基本的な性質を持っている。

 (i)現存の蛋白質と基本的には同等の疎水性度/親水性度を持つことからも、水溶性で球状の構造を取り得る可能性が大きいこと(図12)

 (ii)[GADV]-アミノ酸は、二次構造を形成するためのアミノ酸(Ala:α-へリックス、Val:β-シート、Gly:β-ターン)を含んでいるほか、触媒として機能するために必要な官能基(Asp:カルボキシル基)も含んでいること(表2)

 (iii)現存の遺伝子がコードするコドンの塩基位置1番目には、Gが最も多い(図20(B1))。このことから考えても、GNCがコードする[GADV]-アミノ酸が20種のアミノ酸の中では最も基本的で重要性の高いアミノ酸であると思われること。
 
 従って、このような単純な組成の[GADV]-蛋白質であっても、アミノ酸を重合するためのペプチド結合の形成を触媒できた可能性が大きいと考えられる。もしもその推定が正しいとすれば、アミノ酸の種類が4種と少ないこと、それらが重合されてできた蛋白質の内側には疎水性側鎖をもつ[V]が主に位置し、表面には親水性アミノ酸である[D]が主として位置すると考えられる。このことから考えて、[GADV]-蛋白質は高い確率でよく似た[GADV]-蛋白質を形成できることを示している(もちろん、4種のアミノ酸が100>個結合してできた蛋白質の多様度は、1060である。この値は、20種のアミノ酸の多様度、10130に比べれば、はるかに小さいがそれでも極めて大きな数である。しかし、[GADV]-アミノ酸をランダムに結合させた時には、4種のアミノ酸しか存在しないため、44=256個のアミノ酸配列の中に1度は同じ配列が出てくる計算になる。したがって、256アミノ酸からなる中型の[GADV]-蛋白質を想定するとそれらは互いに良く似ていることが容易に推定できる)。このことは、[GADV]-蛋白質なら遺伝子とは無関係に蛋白質の擬似複製が可能であることを意味している。この点に着目し到達した考えが我々の主張する[GADV]-蛋白質ワールド仮説である(図21)[9]。これまで、RNAやDNAなどの核酸類に比べて、はるかに蛋白質の方が無生物的に形成され易いにもかかわらず、蛋白質は自己複製できないという欠陥のため、蛋白質を生命の起原物質として扱うことは出来ないと考えられてきた。それに対して、我々のこの[GADV]-蛋白質ワールド仮説は、蛋白質が持つと思われていた生命の起原を考える上での致命的な欠陥を克服できる考えとなっている。逆に、多くの人にこれまで支持されてきた「RNAワールド仮説」には、致命的とも思える極めて大きな欠陥のあることが我々には分かった。以下にその根拠を示すこととする。
 

他の研究者によるこれまでの生命の起原に関する考え方

(1)RNAワールド仮説

 生命にとって最も重要かつ基本的なことは、DNAが担っている遺伝情報機能と蛋白質が担っている触媒機能を発揮することによって自己複製を行うことであると一般に考えられている。しかし、DNAには触媒機能が無く、蛋白質には遺伝情報機能が無い。したがって、遺伝子であるDNAは蛋白質無しでは複製できず、蛋白質は遺伝子無しでは生成できない。このような、生命の起原を考える上での難問はDNAと同様の塩基配列を持ちながらRNAにも触媒機能があるという発見[18, 19]によって状況は一変した。即ち、RNAが遺伝情報機能を持ち得るだけでなく、触媒機能をも合わせ持つことができるという事実を根拠に、RNAが自己複製することによってRNAが増殖し、その多様度を増していたRNAを中心とした世界がまず存在したという「RNAワールド仮説」が提案されているのである(図22)[20, 21]。
 問題点:しかし、(1)RNAの構成単位であるヌクレオチドは、アミノ酸と比較してもかなり複雑な有機化合物であり、その無生物的合成が困難なこと。それに対し、[GADV]からなる4種のアミノ酸は、それを構成する原子数の少なさや、異性体の少なさから判断しても、ヌクレオチドよりもはるかに無生物的に合成されやすいこと。(2)それでも、ヌクレオチドが無生物的に合成されたと仮定しよう。しかし、ヌクレオチドを無生物的に結合させ、RNAを形成することは困難である。(3)さらに、それでもRNAを合成できたと仮定しよう。しかし、情報伝達機能発揮し、複製の鋳型となるためには3>次元的な構造を持たないRNAが必要であり、触媒活性を持つためには安定な3次元的構造を持たねばならないという自己矛盾が存在する。このことから考えて、普通の意味で自己複製するRNAが存在できたとは到底考えられない。実際、これまで多くの研究がなされているにもかかわらず、本来の意味でRNA分子が自己複製した例は見つかっていない[21]。このことは、上で述べた情報機能と触媒機能との間に存在する自己矛盾と深い関係があると思われる。(4)仮に、自己複製できたRNAが存在したとしても、自己複製能力と蛋白質の情報機能との間には何の関連性もないと考えざるを得ない。したがって、自己複製できたRNAがたとえ存在したとしてもそれが同時に蛋白質の情報を持つことができたとは到底思えない。これらのことから、我々は、「RNA-ワールド仮説」は成立し得ないと考えているのである[8, 9]。
 これまで説明してきたように多くの研究者によっても、遺伝子の起原や遺伝暗号の起原、蛋白質の起原、そして生命の起原が論じられている。しかし、他の研究者達によるそれらの考えは、それら4つの生命に関する基本問題をどちらかといえば個別に議論してきた。しかも、上で述べてきたように、他の研究者の考えにはそれぞれに大きな問題点があることも分かった。それに対して、我々の議論は相互に関連し合っている4つの起原を、GNC-SNS原始遺伝暗号仮説を基礎として統一的に説明できる可能性が大きい考えなのである(図23)。以上のような点も考慮し、我々は遺伝子や遺伝暗号そして蛋白質や生命の起原についての我々の考えの方が他の研究者によるこれまでの考えに比べて、はるかに合理的であると確信している。
 それでは我々の遺伝子や遺伝暗号それに蛋白質や生命の起原に関する考え方は本当に正しいのだろうか。このことをさらに確かめるため、いくつかの現存の遺伝子や蛋白質が持つ性質を我々の考えにしたがって説明できるのかについても検討した。以下では順を追って、これらのことについて説明することとする。
 

(1)遺伝子の生まれる場とその進化方向

 我々の遺伝子の起原仮説(GC-NSF(a) 仮説や (SNS)n仮説)が正しいとすれば、遺伝子はGC含量の高い遺伝子として生まれ、必要に応じて徐々にGC含量を低下させながら相同な遺伝子を生み出したと考えられる(図24)。そのため、我々の考えにしたがえば、蛋白質はGC含量の高い遺伝子を祖先遺伝子として生まれ、AT変異圧を受けながらGC含量の低い(逆に言えば、AT含量の高い)遺伝子がコードする蛋白質へと進化(変化)したはずである。もしもそのことが事実なら、相同な蛋白質を互いに並置し、保存されているアミノ酸(保存領域に含まれるアミノ酸)と保存されていないアミノ酸(非保存領域に含まれるアミノ酸)の組成を調べると、保存領域内には祖先遺伝子によってコードされた祖先蛋白質の性格が色濃く残されたいるはずである。したがって、このような性質を利用すれば遺伝子または蛋白質の進化方向を推定できることとなる。(図25)。そのことを確かめるため、GC含量の高い遺伝子によってコードされているPaeruginosaのジャイレースA(GyrA) をよりGC含量の低い他の細菌のGyrAと比較した。その結果、確かに我々が予測するように、保存領域では常にGC含量の高い遺伝子によって主としてコードされるSNS-アミノ酸含量が、GC含量の高い遺伝子によってコードされているPaeruginosaのGyrAの非保存領域に含まれるSNS-アミノ酸含量と同程度に高いことが分かった(図26(A))。また、より低いGC含量を持つ遺伝子がコードするGyrA蛋白質の非保存領域内のSNS-アミノ酸含量は、これも予測されたように、遺伝子のGC含量が低くなるにつれて徐々により低い値となることも分かった(図26(A))。さらに、同様のことを緊縮応答に関連したSpoT/RelA蛋白質(図26(B))やグルタミン合成酵素(GlnA)、RNAポリメラーゼの a-サブユニット(RpoA)など他の相同な蛋白質10数種についても調べたが、いずれの場合にもGyrAの場合とほぼ同様の結果が得られた。以上のことは、GyrAやSpoT/RelAなどを初めとする水溶性で球状の蛋白質は、我々が推定するように、GC含量の高い遺伝子を祖先遺伝子として生まれ、GC含量の低い遺伝子がコードする蛋白質へと進化したことを示している。
 

(2)蛋白質の形成過程

 もしも、蛋白質の起原についての我々の考えが正しいとすれば、蛋白質は元来、蛋白質を生み出す場(SNSの繰り返し配列、または GC含量の高い遺伝子のアンチセンス鎖(GC-NSF(a))によって決められるアミノ酸組成(SNS 0次構造やGC-NSF(a) 0次構造)を守った範囲内で各アミノ酸をランダムに連結させることによって生み出されているはずである(図19)。また、我々の考えるように各アミノ酸をランダムに連結させることによって蛋白質が形成されているのだとすれば、蛋白質内で隣り合うアミノ酸の出現頻度は、細菌ゲノムがコードする蛋白質のアミノ酸組成から計算によって求められる隣り合うアミノ酸の出現頻度と一致するはずである。H. influenzaeのゲノムデータを利用して、そのことを確かめた図27の結果を見て分かるように、隣り合うアミノ酸の組み合わせによって表される400組すべての点が傾き1の直線の回りに分布している。H. pyroliやE. coli, M. genitarium、B. subtilisなどのゲノムデータを用いて解析した場合にも、これと同様のことを確かめることができた。以上のことは、我々が予測したように、蛋白質は基本的にはSNS-0次構造やGC-NSF(a)-0次構造が規定するアミノ酸組成の範囲内で、アミノ酸をランダムに結合することにより形成されていることを示している。
 

(3)コンピューターによる遺伝子の起原と進化に関するシミュレーション

 これまで説明してきたように、遺伝子や遺伝暗号それに蛋白質の起原に関する我々の考え方は、基本的には間違いが無いように思われる。もしも、そのことが本当なら、我々が想定するように遺伝子はGC含量の高い遺伝子として生まれ、遺伝子上に変異をゆっくりと蓄積しながらGC含量を低下させたはずである。また、祖先遺伝子が変異を蓄積することによって生み出されたすべての遺伝子がコードするどの蛋白質も蛋白質の3次構造形成にとって重要な6つの条件(疎水性度/親水性度、a-Helix、b-Sheet および b-Turn形成能、酸性アミノ酸含量や塩基性アミノ酸含量)を満足しているはずである。そうだとすれば、遺伝子や蛋白質が生まれる場や進化の過程で遺伝子や蛋白質が変化する様子を我々の考えにしたがってシミュレートできるはずである。そこで、実際に、コンピューターを用いて遺伝子進化の様子をシミュレートできるかどうかを確かめることとした。
 そのため、GC含量の高いM. tuberculosisのある一つの1,500塩基(500コドン)からなる遺伝子のアンチセンス鎖を仮想的な祖先遺伝子として選び出した。その際、同時に、その仮想的祖先遺伝子がコードする仮想蛋白質が、蛋白質の構造形成に必要な6つの条件を満足していることを確かめておいた。次に、その仮想的な祖先遺伝子に対して、1回の操作で突然変異を1,500塩基の各サイトそれぞれに1%の確率(1,500塩基の内、平均15塩基で塩基置換が起こる確率)で導入した。その結果、6つの条件のいずれか1つでも満足できなくなるか翻訳のフレー>ム内に停止コドンが現れた場合には、活性を持たない変異蛋白質として除外し、変異を導入する操作を1>段階戻してやり直すこととした。このような操作を繰り返しながら、球状蛋白質を形成できる6つの条件を満足する仮想遺伝子や仮想蛋白質が1000回現れるまで試行を繰り返した。これらの操作を9段階の異なる変異圧の下でシミュレートした結果が図28に示されている。この図28ではシミュレートした結果を実在遺伝子のコドン内の塩基組成変化と比較するため、その塩基組成変化を最小2乗法で近似した直線として表しておいた。その際、コドン内には3つの塩基位置があり、それぞれに4種の塩基が含まれるため、コドンの各塩基位置毎の塩基組成変化を示す図は合計12種描かれることになる。その内、11種については、実際の遺伝子に見られる塩基組成変化をほぼ再現することができたが、コドンの第1塩基位置のG含量だけは直線からかなりのずれを示した(図28)。このコドンの第1塩基位置のG含量が実在の遺伝子で見られる変化とずれた原因を探るため、祖先遺伝子を共通に持つ相同蛋白質では一般に約30〜40%のアミノ酸が保存されていることを考慮に入れて、蛋白質の保存領域を40%に設定し、再び同様のシミュレーションを行った。その結果、予想されたようにコドンの第1塩基位置のG含量についても、実際の遺伝子内で見られる変化をほぼ再現することができた(図29)。そればかりか、シミュレートして得られた仮想的な遺伝子がコードする仮想的な蛋白質のアミノ酸組成を、実際の細菌ゲノムがコードする蛋白質のアミノ酸組成と比較したところ、アルギニンやリジンなどいくつかのアミノ酸を除いて極めて良い一致を示すことが分かった(図30)。もちろん、これらのアミノ酸組成の分布が単に20種のアミノ酸の特性によって決められているのではないことを確認するため、祖先遺伝子や遺伝子の進化経路とは無関係に20種の乱数によって設定されたアミノ酸組成を持つ仮想的な蛋白質の内、これまでと同様に6つの条件を満足するものだけを選択した。得られた仮想蛋白質の平均アミノ酸組成を棒グラフで示したところ、どのアミノ酸についても、ほぼ同じ割合で含まれることが分かった(図31)。このことは、実在の蛋白質にはロイシンやアラニン、グリシン、バリン、セリン、イソロイシンなどのアミノ酸が一般に多く見られ、ヒスチジンやメチオニン、トリプトファン、システインなどのアミノ酸があまり見られないのは、それらのアミノ酸が持つ特性によるのではなく、遺伝子がGC\含量の高いものとして生まれ、GC含量の低い方向に向かって基本的には進化していること、それと同時に、進化の過程で生み出された遺伝子が遺伝暗号にしたがって翻訳されることによって蛋白質が作り上げられていることを意味している。即ち、これらの事実も、我々の遺伝子や遺伝暗号それに蛋白質の起原およびそれらの進化過程に関する考えが正しいことを示している。
 

おわりに

 以上で述べてきたように、我々は蛋白質の構造形成に必要な6つの条件を主として用いることによって、遺伝子の起原、遺伝暗号の起原、蛋白質の起原および生命の起原に関する4つの新たな仮説を提案した。我々の考えは、これまでともすればその本質的な理解が困難であったこれら4つの起原を、我々が主張するGNC-SNS原始遺伝暗号仮説に基づいて統一的に説明できる可能性の大きなものであると考えている。逆に言えば、多くの研究にもかかわらず、これまで生命の基本システムに関するこれら4つの問題を正しく理解することができなかったのは、それらの問題を多くの研究者が個々の独立した問題として考える傾向が強すぎたことが主な理由であると思われる。したがって、現在、生命の起原をRNAワールド仮説に基づいて説明する考えが主流となっているが、このような生命の起原についても、我々は我々の主張する [GADV]-蛋白質ワールド仮説の方がより合理的であると確信している。それだけではなく、遺伝子や遺伝暗号、蛋白質などの生命の基本的システムを、GNC-SNS原始遺伝暗号仮説を中心とする立場から考え直すことによって、現在の遺伝子や蛋白質が持つ様々な性質や現在の代謝経路が何を基礎として形成されてきたのかに至るまで、より深くそして正確に理解できるようになると思われる。したがって、我々は今後これらの問題の解決にも取り組みたいと考えている。
 

引用文献

  1. 例えば、GenomeNet and Bioinformatics in Japan (http://www.genome.ad.jp)など
  2. 例えば、The RSCB Protein Data Bank (http://pdb.protein.osaka-u.ac.jp.jp/pdb/index.html)など
  3. Ikehara, K. and Okazawa. E.  Unusually biased nucleotide sequences on sense strads of Flavobacterium sp. Genes produce nonstop frames on the corresponding antisense strands, Nucl. Acids Res., 21, 2193-2199(1993)
  4. Ikehara, K., Amada, F., Yoshida, S., Mikata, Y. and Tanaka, A  A possible origin of newly-born bacterial genes: significance of GC-rich nonstop frame on antisense strand, Nucl. Acids Res., 24, 4249-4255 (1996)
  5. 池原健二,遺伝暗号の起源と進化(新説SNS仮説に基づいて)、生物科学、50,44-54(1998)
  6. Ikehara, K. andYoshida, S.> SNS hypothesis on the origin of the genetic code, Viva Origino, 26, 301-310 (1998)
  7. Ikehara, K. A possible evolutionary pathway of the genetic code deduced from the SNS hypothesis, Viva Origino, 26, 311-320 (1998)
  8. 池原健二、生命の起源についてのRNAワ-ルド仮説は正しいか?(生命は蛋白質ワ-ルドから生まれた!)、生物科学、51, 43-53(1999)
  9. 池原健二、生命は蛋白質から生まれた!?-[GADV]-タンパク質ワ-ルド仮説-、化学、55, 14-19 (2000)
  10. Sueoka, N. Directional mutation pressure and neutral molecular evolution. Proc. Natl. Acad. Sci., USA. 85, 2653-2657 (1988)
  11. Ohno, S“Evolution by Gene Duplication.” Springer, Heiderberg (1970)
  12. Gilbert, W., de Souza, S. J. and Long, M. Origins of genes, Proc. Natl. Acad. Sci. USA., 94, 7698-7703 (1997)
  13. Miller, S. L. and Orgel, L. E. “The orgin of life on the earth.” Prentice-Hall, Inc. (1974)
  14. Osawa, S "Evolution of the genetic code",Oxford University Press (1995)
  15. Jimenez-Sanches A. On the origin and evolution of the genetic code. J. Mol. Evol., 41, 712-716 (1995)
  16. Voet, D., Vet, J. G. and Pratt, C. W. “Fundamentals of Biochemistry” Jhon Wiley &Sons, Inc(1999)
  17. Dill, K. A. Dominant forces in protein folding, Biochemistry, 29, 7133-7155 (1990)
  18. Kruger, K., Grabowski, P. J., Zaug, A. J., Sands, J., Gottschling, D. E. and Cech, T. R. Cell, 31, 147-157(1982)
  19. Guerrier-Takada, C., Garder, K., Marsh, T., Pace, N. and Altman, S. The RNA moiety of ribonuclease P is catalytic subunit of the enzyme, Cell, 35, 849-857 (1983)
  20. Gilbert, W. The RNA world, Nature, 319, 618 (1986)
  21. Gesteland, R. F., Cech, T. R. and Atkins, J. F. “The RNA world”, Cold Spring Harbor Laboratory Press (1999)

もどる