グラフ
Nature Genetics (2023)この記事を引用
メトリクスの詳細
東アジア農業の創始作物である Setaria italica (アワ) は、C4 光合成のモデル植物であり、複数の気候にわたって適応育種へのアプローチを開発しています。 ここで我々は、世界中のコレクションから 110 の代表的なゲノムを集めて Setaria パンゲノムを確立しました。 パンゲノムは 73,528 の遺伝子ファミリーで構成されており、そのうち 23.8%、42.9%、29.4%、3.9% がそれぞれコア、ソフトコア、ディスペンサブル、プライベート遺伝子です。 202,884 個の非重複構造変異体も検出されました。 汎ゲノム変異体の特徴付けは、収量遺伝子 SiGW3 の同定で例示されるように、アワの栽培化および改良におけるそれらの重要性を示唆しています。この変異体では、366 bp のプロモーターの有無に応じた変異体が遺伝子発現の変動を伴います。 私たちはグラフベースのゲノムを開発し、13 の環境にわたる 68 の形質について大規模な遺伝研究を実施し、さまざまな地理的場所でキビの改良に役立つ可能性のある遺伝子を特定しました。 これらは、マーカー支援育種、ゲノム選択、ゲノム編集に使用でき、さまざまな気候条件下で作物の改良を促進できます。
アワ (Setaria italica) は、世界最古の栽培穀物の 1 つであり、初期の中国文明の形成の基礎を提供したと考えられています。 最近の考古学的証拠は、この種がその祖先であるエノコログサ (Setaria viridis) から約 11,000 年前に家畜化され始めたことを示唆しており、人間の新石器時代社会の初期の農業移行においては大麦や小麦と同時代のものであると考えられます。 アワはセタリア属の現存する唯一の作物種であり、干ばつに優れ、土壌栄養耐性が低い。 アワは家畜化されて以来、ユーラシアとアフリカ、そして最近ではアメリカ大陸に広がり、温帯、熱帯、乾燥した環境で生育しています。
重要なことに、セタリア種は C4 光合成を採用しています。 アワの他にトウモロコシ、ソルガム、サトウキビ、スイッチグラスなどの C4 植物は、高い光合成効率と環境適応性を備えているため、世界の農業穀物とバイオ燃料の生産において重要な役割を維持しています 2,3。 しかし、ほとんどの C4 作物ゲノムの複雑さと、これらの種における高効率の形質転換システムの欠如により、これらの作物の基礎的な研究と育種が妨げられてきました。 この点において、アワとエノコログサは、そのコンパクトな二倍体ゲノム(約 420 Mb)、短いライフサイクル(約 70 日)、および高効率の形質転換系により、C4 光合成作物植物の理想的なモデル系です 4,5。 アワは、世界の食糧安全保障を確保する上で極めて重要である可能性がある C4 光合成モデル作物としての有利な特徴を備えているにもかかわらず 6、そのゲノム多様性と遺伝子改良の可能性についてはあまり知られていません。
最近、イネ 7,8、ダイズ 9、小麦 10、大麦 11、トマト 12、ジャガイモ 13 のパンゲノム研究により、構造変異体 (SV) が作物の栽培化、形質決定 14 および遺伝子改良において重要な役割を果たしていることが示されています。 現在までに、エノコログサとアワの 2 つのドラフトゲノム 5,15 と 3 つの比較的高品質なゲノム 16,17,18 が公開されています。 集団スケールのショートリード配列データと組み合わせることで、これまでの研究により、アワとエノコログサの集団構造、およびいくつかの重要な農業形質の遺伝的基盤が明らかになりました 16、19、20、21。 しかし、セタリアの家畜化の根底にある遺伝的変異の全範囲と、全ゲノム多様性の役割を含むその広範な生態学的適応性は、依然としてほとんど知られていない。
今回我々は、野生種35種、在来種40種、現代栽培種セタリア35種の110種の参照グレードゲノムを新たに収集し、アワの家畜化と改良という観点からゲノム進化を調べた。 アワのパンゲノムを組み込むことで、これらの複数のアクセッションにわたってセタリアの最初のグラフベースのゲノム配列を構築し、13 の異なる環境にわたって大規模な遺伝研究を実施しました。これはアワの研究と育種の基盤として機能する可能性があります。他の作物における「設計による品種改良」の例(補足図1)。
我々は、セタリア属の野生種(S. viridis)630頭、在来種829頭、現生栽培品種385頭について、平均配列深度約15倍のゲノムワイドな再配列データを収集した。そのうち1,004頭は新たに生成され、840頭は以前の研究によるものだった16。 21 (補足表 1)。 アワ「Yugu1」参照ゲノムに対するリードをアライメントした後、1,844 のアクセッションにおいて約 6,000 万の一塩基多型 (SNP) と 670 万の挿入/欠失 (インデル) を特定しました (補足表 2)。
4,934,413個の高品質SNPを使用して、系統発生および集団構造分析を実行しました(マイナー対立遺伝子頻度≧0.05および欠損遺伝子型率<0.1;図1a、bおよび補足図2a)。 個体群構造分析に基づいて、野生種を「中部」、「中東部」、「中北部」、「西海岸」の個体群と一致する 4 つのサブグループ (W1、W2、W3、W4) に分類しました。それぞれ、以前の研究16で。 W1 は栽培アワに最も近い集団サブグループであり、収集したすべてのエノコログサが含まれています。 これは、W1が栽培されているすべてのアワの野生の祖先であることを示しており、中国がこの作物の栽培中心地であることと一致しています(図1a)。
a、1,844 の Setaria 登録の系統樹。 灰色の線は混合物を示し、他の色の異なる線は b の k = 7 に対応するサブグループです。 b、k = 2–7 からの ADMIXTURE 分析。 c、アワ系統の 3 つのサブグループの地理的分布。 C3 は、他の 2 つのサブグループと比較して広く分布しています。 マップは、R パッケージ ggplot2 のマップ データ関数を使用して作成されました。
ソースデータ
我々の以前の研究では、栽培アワは地理的/気候的分布と農耕習慣に密接に関連している2つの異なるサブグループに分類されました19。 ここで、私たちのより大きなグローバルデータセットは、アワを遺伝的に分化した 3 つの部分集団 (C1 ~ C3) にさらに分割することができました (図 1)。 TREEMIX22 と Admixtools23 は両方とも、最初の進化的分岐は C3 サブグループと C1/C2 サブグループの間であり、後者の 2 つは後で分岐することを示しています (補足図 2)。 C1 (343 アクセッション) と C2 (478 アクセッション) は、前回の研究のタイプ 1 およびタイプ 2 アワとほぼ一致しており 19、C1 個体群は高緯度に分布し、C2 は温暖な気候の比較的低緯度に分布しています。 私たちが特定した新しい集団サブグループであるC3(登録数82)は世界中に広く分布しており、これはC3が他の2つのサブグループよりも広範囲の気候によく適応している可能性があることを示唆しています(図1cおよび補足図3b)。
ショートリードリシーケンスアプローチでは見落とされる可能性のあるセタリアの遺伝的多様性の全範囲を捕捉するために、35の野生種、40の在来種、および35の現代栽培種を含む110の代表的なセタリアアクセッションをde novoで集めました(図2a)。 これらのアクセッションは、系統関係と地理的分布、育種および/または研究の有用性、およびサブグループの分布に基づいて選択し、アワおよびエノコログサ内の遺伝的多様性を確実に代表していることを確認しました(図2a、bおよび補足ノート1〜5)。 私たちが選択したアクセッションも表現型の多様性に及び、家畜化と改良に関連する表現型の連続体を表しています(図2c、d)。
a、1,844 の Setaria 登録の系統樹。 異なる色の線は、次のように de novo アセンブリの 110 の登録を示します: 野生 (赤)、在来種 (緑)、品種 (青)。 b. 1,844 の Setaria アクセッションすべてにおける 110 の多様な代表アクセッションの地理的分布。 点の色はaに対応します。 地図は ggplot2 の地図データ関数を使用して作成されました。 c、110 系統の GL および GW、アワの代表的な野生種、在来種および園芸品種の植物構造、穂の形状/サイズ、穂当たりの粒収量の特徴。 d、野生、在来種、現代品種のTGW、GL、GW、主茎の直径、分げつの数および出穂日の違い。 d の箱ひげ図における野生種、在来種、品種のサンプル数はそれぞれ 35、40、35 です。 箱ひげ図では、25% と 75% の四分位がそれぞれ箱の下端と上端として表示され、中心線は中央値を示します。 ひげは四分位範囲の 1.5 倍まで伸びます。 有意水準は両側ウィルコクソン検定から計算されます。
ソースデータ
3 つの代表的なアクセッション、Me34V (野生種)、Ci846 (在来種)、および Yugu18 (現代品種) がさらに選択され、Setaria の高品質参照ゲノム アセンブリが構築されました。 約 110 倍の PacBio リードを使用して CANU24 および HERA25 で 3 つのゲノムを新規アセンブルし、約 65 倍の Illumina リードを使用してアセンブリを磨き、BioNano 物理マップで補正しました。 これら 3 つのゲノム アセンブリは、現在利用可能な参照ゲノム 5、16、18 よりも連続性が高く、コンティグ N50 の平均長は 20 Mb を超え、LTR アセンブリ インデックス (LAI) は 20 を超えています。イルミナのショート リードの 99% 以上、胚植物 BUSCO の 97% 以上遺伝子は適切にマッピングされており、高い完全性が示唆されています。 K-mer ベースの分析では、すべてのアセンブリの完全性 (99.56% ± 0.04%) と品質 (40.81 ± 0.52) が高く、誤った重複が低い (0.52 ± 0.13) ことも示されました (補足表 6)。
残りの107のアクセスについては、平均シーケンス深度がそれぞれ約91.1倍と48.1倍で、TB PacBioロングリード約4.1回とTB Illuminaリード約2.2回を生成しました(補足表5)。 平均アセンブリコンティグN50の長さは126.9 kbから5.5 Mbの範囲であり(補足表6)、イルミナショートリードの平均99.8%と胚植物BUSCO遺伝子の94.5%がこれらのアセンブリにアラインメントされました(補足表6)。 K-mer ベースの分析により、培養アクセッションの組み立てられたゲノム品質 (完全性、97.59% ± 2.02%、QV、39.36 ± 1.78、重複、2.55% ± 1.16%) が野生アクセッション (完全性、91.34%) よりも高いことが示されました。 ± 6.05%、QV、30.52 ± 6.89、重複、4.34% ± 2.48%)。 長末端反復レトロトランスポゾン(LTR-RT)を使用してゲノムアセンブリの品質を評価すると、107個のアセンブリすべてが「参照」レベル(LAI > 10)に達し、そのうち17個が「ゴールドスタンダード」レベル(LAI > 20;補足表6)に達したことが示されました。 )。
組み立てられた配列の合計 161.8 Mb ~ 199.9 Mb (46.2% ± 0.01%) が転移因子 (TE; 補足表 6) として注釈付けされ、LTR/Gypsy および LTR/Copia が 2 つの最も豊富な TE スーパーファミリーです。 組み立てられたゲノムには 39,907 ± 1,056 個のタンパク質コード遺伝子があり、BUSCO スコアは 94.0% ± 1.7% (補足表 6)、98.7% ± 0.075% の遺伝子は 9 つの染色体に固定されていると予測されました。 予測遺伝子のエクソンの平均 65% がトランスクリプトーム配列データによって裏付けられ、予測遺伝子の 55.4% ± 1.6% に機能用語が割り当てられました (補足表 6)。
私たちは、タンパク質コード遺伝子を使用してアワのパンゲノムを構築し、80の栽培アクセッションのデータと、W1サブグループ(野生の祖先)の28の野生アクセッション、さらに以前にリリースされた3つのゲノム(Yugu1(参考文献5)、xiaomi18)を統合しました。およびA10(参考文献16;補足表5)。 追加のゲノムが分析に追加されるにつれて遺伝子ファミリーの数は増加し、n = 30 のアクセッションでプラトーに近づきました(図 3a)。 パンゲノムは73,528の遺伝子ファミリーで構成されており、そのうち23.8%がコア遺伝子、42.9%がソフトコア遺伝子(90%以上の個体に存在、100~110のアクセッション)、29.4%が必須遺伝子(2~110のアクセッションに存在)であった。 99 のアクセッション)、3.9% はプライベート遺伝子でした(図 3a)。 われわれは、Yugu1 参照ゲノムには存在しない、パンゲノム内の追加の 14,283 遺伝子ファミリーを同定しました。 これらの遺伝子は、RNAキャッピング、光応答、および細胞のアルデヒド代謝プロセスやタンパク質代謝プロセスなどの特定の代謝プロセスが豊富でした(補足表7)。
a、セタリアのパンゲノム。 パンゲノムのトレンドを除去した増殖曲線は、セタリアの閉じたパンゲノムを示しています。 円グラフは、構成によってマークされた遺伝子ファミリーの割合を示します。 b. 110 のアクセッションからの SV 番号とタイプの積み上げ棒グラフ。 c、アワの9本の染色体にわたる112のゲノムのSVの分布。 d、遺伝子までの距離に対するPAV数の分布。 e, 追加のアクセッションを追加した、異なるグループの汎 PAV とコア PAV の累積曲線。 pan-PAV のトレンドを除去した成長曲線は、Setaria の閉じた pan-PAV を示しています。
ソースデータ
高品質のゲノムアセンブリを活用して、「Yugu1」とのペアワイズゲノムアラインメントを実行し、112 のアクセッションで 2,430 万の SNP と 380 万のインデル (<50 bp) を特定しました。そのうちの 1.5% は非同義であり、遺伝子機能に影響を与える可能性があります。 (補足表 8 および 9)。 107,151個の挿入、76,915個の欠失、18,455個の転座、および363個の逆位を含む、合計202,884個の非重複SV(サイズが50 bp以上)が検出されました(図3bおよび補足表8)。 これらの約90%は、それぞれ8.8 kb、6.6 kb、62.6 kb、および137.4 kbより短かった(補足図4a)。 存在-不在変異体(PAV;大きな挿入と欠失)は作物パンゲノムの重要な特徴であり、それらは最も豊富なSVタイプであり(図3bおよび補足表8)、遺伝子間反復領域に富む傾向がありました(図3b)。 3cおよび補足図4b)。
ほとんどの存在バリアント(72.3%; n = 59,429)および不在バリアント(92.8%; n = 99,477)が TE と重複しており、これはゲノム全体の TE の割合(60.5%; P < 0.001)よりも大幅に高いことがわかりました。補足図。 4c)。 これらのTE関連PAVはDNAトランスポゾン領域にクラスター化しており、これらのPAVのほとんどの切断点はTE接合部位の近くにあり(補足図4d、e)、DNAトランスポゾンがセタリアゲノム内のほとんどのPAVの形成を駆動した可能性があることを示唆しています。 また、標的部位重複 (TSD) を伴う単一の無傷の TE と共存する 15,758 個の高信頼性 TE 由来 PAV も特定しました。
さらに、遺伝子領域からの距離に基づいて SV の分布を分析しました。 たとえば、最も近い遺伝子からの距離が増加するにつれて、PAV数が徐々に減少することがわかりました(図3d)。 機能的に重要な遺伝子座のプロモーターまたは遺伝子本体内に局在する一連のSVが見つかり、SVは発現レベルが低い遺伝子でより頻繁に発生します(補足ノート1〜5および補足図5および6)。
SVを使用して系統解析を実行しました。これにより、SNPに基づく系統発生と一致して、112のアクセッションが2つの異なるグループに明確に区別され、SVがセタリアの家畜化と改良にも関連していることが示唆されました(補足図7)。 さまざまな集団グループ間の PAV 密度と差次的に発現された遺伝子の有意な相関関係 (両側スチューデント t 検定、P = 2.2 × 10−16) は、PAV が集団間の遺伝子発現差の根底にあることを示唆しており、PAV が何らかの役割を果たしている可能性をさらに強化しています。作物の栽培化と改良(補足注記1〜5および補足図6)。
アワの作物の栽培化または改良中に選択中のPAVを特定するために、推定上の「家畜化」PAVを特定するために野生種と在来種の系統間でPAV頻度を比較し(図4a〜c)、可能性のある「改良」PAVについては在来種と品種間でPAV頻度を比較しました(図4aおよび補足図8)。 我々は、野生種と在来種間、在来種と園芸種間で頻度が実質的に異なるPAVを、それぞれ家畜化選択SV(domPAV)および改良選択SV(impPAV)として定義した。 合計 4,582 個の domPAV (図 4a-c および補足表 10) と 152 個の impPAV (図 4a、補足図 8 および補足表 11) が特定され、アワの栽培化中の選択圧力がその後の作物改良と比較してより強いことを示唆しています。 。 それらのうち、1,933 個の domPAV と 57 個の impPAV は、在来種および栽培系統の両方で頻度が一貫して上昇または低下している好ましい PAV (favPAV) です。 遺伝子またはプロモーター領域にfavPAVを持ち、生殖過程、光周期、色素蓄積、窒素利用などの作物の栽培化に関連する生物学的プロセスが豊富な680の好ましい遺伝子を同定しました(図4d)。 また、集団ツリーのさまざまな枝で選択中のゲノム領域(補足図3)とこれらの選択されたPAVの間の共局在を調べました。 これらの選択された領域のうち 10 個が domPAV および impPAV と重複していることがわかります (補足表 4)。
a、XPCLR、ヌクレオチド多様性比 (πW/πL)、および FST テストが S. viridis の選択分析に使用されます。 垂直破線は、ゲノム全体の選択シグナルの閾値を示します (XPCLR > 9.66、πW/πL > 72.96、および FST > 0.53)。 DomPAV と favPAV は b と c に相当します。 b、散布図は在来種と野生におけるPAV頻度を示しています(両側フィッシャーの直接確率検定を使用して計算されたP値)。 c、家畜化関連PAV(domPAV)の頻度パターン。 オレンジと青の線は、家畜化中の favPAV を示します。 d、favPAV 遺伝子の GO 濃縮分析。 色の強度 (P 値) は、濃縮テストの有意性を反映します (両側フィッシャーの直接確率検定を使用して計算)。 円のサイズは、集計された GO 用語の頻度を表します。 e, PAV ベースの方法と 3 つの SNP ベースの方法にわたる家畜化関連遺伝子の交差。 f、SvLes1遺伝子におけるハプロタイプおよび選択的シグネチャ。 g、sh1 遺伝子のハプロタイプと選択的サイン。 h、SH1 および sh1insert 対立遺伝子による NIL の表現型の破壊。 スケールバー、1.5 cm。 πW/πL、π野生種/π在来種。
ソースデータ
家畜化の過程で異なる穀物作物種間で類似の形質が進化したことは長い間注目されており、これらの家畜化症候群の形質は、異なる栽培系統の類似の遺伝子によって決定されるようです。 実際、トウモロコシの形態的栽培化遺伝子 tb1、イネ開花遺伝子 Hd3、穀粒重量/形状遺伝子 LG1 および GW6a、デンプン糊化温度遺伝子 SSII など、さまざまな穀物種の栽培化に関連するいくつかの domPAV 遺伝子が見つかりました (補足図9)。 可能性のある家畜化関連遺伝子座をさらに特定するために、3 つの異なる方法で SNP データを使用してアワの家畜化に関連するゲノム全体の選択サインをスクリーニングしました。 SNPに基づく選択スイープ分析から、Hd1、TGW6のホモログ、および食/調理品質遺伝子SBE2などの農業形質に関与する遺伝子も家畜化中に選択下にあったことがわかり(補足図10)、より高い穀物を有するアワと一致しますエノコログサからの栽培化後の収量、食味と調理品質の向上、生育期間の長期化などが挙げられます。 しかし、SNPベースの方法では、domPAV遺伝子の22.4%(328)のみがリコールされました(図4e)。これは、PAV頻度の使用が、ポジティブ選択下で遺伝子を同定する際のSNPベースの方法を補完するアプローチである可能性があることを示唆しています。 これらの分析を総合すると、アワの家畜化と改良の際に重要な役割を果たす可能性のあるパンゲノム変異(つまり、遺伝子/配列の有無)が特定されました。
アワの進化における PAV の役割をさらに調査するために、我々は、穀物における次の 2 つの重要な家畜化形質、すなわち種子が飛散しないことと穀物収量の増加を詳しく調べました。 種子の非飛散性は、家畜化された穀物の重要な表現型と考えられており、実際に考古学者によって作物の家畜化の重要なマーカーとして使用されています 26,27。 種子粉砕遺伝子座を特定するために、RIL 集団 (補足ノート 1 ~ 5) と 3 つの主要な QTL (qSH5.1、qSH5.2、および qSH9.1) を使用して、QTL 解析とバルクセグリガント解析シーケンス (BSA-seq) を実行しました。 Setaria での種子の粉砕を制御するものが特定されました(補足図 11b、c)。
qSH5.1 については、最近報告された Setaria 粉砕関連遺伝子 SvLes1 が 6.7 kb の domPAV を含み、候補遺伝子であることがわかりました 16。 また、近同質遺伝子系(NIL)を使用して、qSH9.1をマーカーM2とM3の間の87.3 kb領域に詳細にマップし、絞り込みました。この領域には、seita.9G154300(sh1、稲粉砕遺伝子OsSh1のホモログ;補足)が含まれていました。注 1 ~ 5)。 2つのNIL、NIL-SH1およびNIL-sh1insertは、同様の植物構造を有するが、異なる粉砕表現型を有し、アワのqSH9.1遺伝子座としてsh1をさらに確認した(図4gおよび補足図12)。 sh1 の遺伝子機能は、参考文献のトランスジェニック研究でも独立して証明されました。 28.
sh1とSvLes1の両方のハプロタイプ分析は、SvLes1の挿入がアワの家畜化に必ずしも関与しているわけではない29が、sh1の挿入は家畜化されたアワでは固定されているという以前の研究を裏付けています(図4f、g)。 興味深いことに、SvLes1の6.7 kbの欠失もsh1の855 bpの欠失もエノコログサでは修正されていないことがわかりました(図4f、g)。これは、他の遺伝子(たとえば、qSH5に位置する遺伝子)の作用を示唆しています。 .2)エノコログサの粉砕の規制に関与する。
2 番目の重要な家畜化形質は、栽培作物種における穀物収量の増加です 26,27 (図 2c,d)。 アワの粒形(粒幅(GW)と粒長(GL))はアワの穀粒収量の重要な決定要因であり、相関分析と表現型分布は、粒収量(千粒重(TGW))もまた、次の要因によって決定されることを示唆しています。 GW(図5a、b)。 この形質を遺伝学的に調べるために、私たちが開発した 110 の高品質のゲノム配列を使用しました。これらは、野生型と栽培型の両方の系統を含む、家畜化関連形質のゲノムワイド関連研究 (GWAS) にとって重要なリソースです。 TGW、GW、および GL に対して SV ベースの GWAS (SV-GWAS) を実行しました。 TGWとGWの染色体1、3、4、5、9上にいくつかの重要なGWASシグナルが見つかりました(図5c、d)。 興味深いことに、我々は染色体 3 上に 366 bp の欠失を発見しました。その欠失は、TGW と最も有意な関連性 (P = 8.6 × 10−15)、次に GW との最も有意な関連性 (P = 7.3 × 10−9) でした (図 1)。 5c、d)。 また、この領域の在来種のヌクレオチド多様性の中程度の低下も観察され、この欠失はfavPAVとして分類され、アワの進化における正の選択が示唆されました(図4aおよび5e)。
a、TGW、GL、GW間の表現型相関。 b、TGW、GL、およびGWの表現型の分布。 c、d、それぞれTGWとGWのSV-GWASのマンハッタンプロット。 水平線は、ボンフェローニ補正されたゲノム全体の有意性閾値 (α = 1 および α = 0.05) を示します。 e, 200 kb 間隔における野生種、在来種および園芸品種のヌクレオチド多様性の分布。 f、ピーク SV を含む 200 kb 間隔内の 27 個の遺伝子の発現パターン。 g、野生型とSiGW3過剰発現株の粒径の違い。 h – k、野生型Ci846と3つの独立した過剰発現株の間の発現レベルとTGW、GWおよびGLの比較。 l、SiGW3および20kbの左側および右側に隣接するゲノム領域のハプロタイプ分析。 黒い矢印は、scaffold_3:7310555 の野生系統と同じ遺伝子型を持つ 3 つの在来種を示しています。 m、SiGW3 の上流の 366 bp 欠失の機能の検証。 一過性アッセイはアワの葉のプロトプラストで実行されます。 構築物のバックボーンは、カリフラワー モザイク ウイルスの最小プロモーター (mpCaMV、緑色のボックス)、ルシフェラーゼ ORF (白色のボックス)、およびノパリン シンターゼ ターミネーター (紫色のボックス) で構成されます。 アワ品種およびエノコログサ(野生型)の制御領域の遠位成分(オレンジ色のボックス)の一部を、最小プロモーターの上流の制限部位にクローニングしました。 「Δ」は、遠位コンポーネントからの 366 bp SV の切除を示します。 青い水平バーは各コンストラクトの発現レベルを示します。 サンプル数は 5 です。野生のほうきびと栽培されたほうきびの間の n、XPCLR、FST、および π の値。 赤破線は選択信号 (XPCLR > 53.6、FST > 0.644) です。 縦の破線は、ホウキアワのSiGW3の相同遺伝子longmi029371を示す。 データは、h – k および m の平均 ± SD として表示されます。 有意性は両側スチューデント t 検定によって計算されます。 h と i のサンプル数はそれぞれ 6 と 3 です。 j および k の WT、OE1、OE2、および OE3 のサンプル/シードの数はすべて 35 です。
ソースデータ
「A10」(野生)および「Yugu1」(品種)の10の組織における遺伝子発現パターンをスクリーニングしました。 このSVの周囲の200 kbの間隔には27の遺伝子が含まれており、そのうちの8つは「A10」と「Yugu1」の間の登熟段階の種子において異なる発現パターンを示しました(図5f)。 次に、これら 8 つの遺伝子のイネオルソログを検索したところ、seita.3G109700 が TGW および GW の原因遺伝子 (以下、SiGW3 と名付けます) である可能性が最も高いことがわかりました。 この遺伝子座は、イネの栽培関連遺伝子 GW5/GSE5 遺伝子と 73% の配列類似性を持っており、この遺伝子は小穂殻の細胞増殖に影響を与えることによってイネの粒径を調節します 30,31。
SiGW3 の機能を検証するために、アワでこの遺伝子を過剰発現させました (アクセッション「Ci846」)。 野生型植物と比較して、トランスジェニック植物はSiGW3遺伝子発現が高く、TGWとGWが減少し、GLが増加しました(図5g-k)。 原因となる変異を特定するために、SiGW3 内のゲノム変異と、110 キビのアクセッションの遺伝子座に隣接する 20 kb 領域を分析したところ、366 bp の欠失 (遺伝子から約 7.2 kb 離れた) のみが表現型と共分離していることがわかりました (図5l)。 アワプロトプラストにおける一過性アッセイにより、エノコワ遠位配列(野生型)と、366 bp フラグメント(△C)を除く改変アワ遠位配列成分を含むコンストラクトは、366 bp フラグメント(△C)を含むコンストラクトと比較して、より高いルシフェラーゼレポーター遺伝子発現を駆動することが示されました。アワ品種 (C) の断片 (図 5m)。 これは、SiGW3 が穀粒重量を負に制御しており、遠位 366 bp のゲノム配列が SiGW3 の発現を抑制し、それによって家畜アワの穀粒重量を増加させている可能性があることを示しています。 SiGW3 はアワとイネの両方で同様の機能と選択パターンを持ち 30、ホウキアワ (Panicum miliaceum; 図 5n) でも強力な選択を受けているようであり、同じ遺伝子が 3 つの異なる穀草の GW 進化に関与している可能性があることを示唆しています。血統。
パンゲノム変異を説明し、育種のための重要なリソースを開発するために、我々は、112 のアワおよびエノコログサの 107,151 の挿入、76,915 の欠失、および 363 の逆位を Yugu1 参照ゲノム配列に統合することにより、セタリアのグラフベースの参照ゲノムを構築しました (方法)。 従来の単一ゲノム参照アセンブリを超えるグラフベースのゲノム配列が利用可能になれば、より多くの欠損遺伝率を捕捉できる可能性があります。
私たちは、イルミナのショートリード配列とグラフベースのゲノムを使用して、1,844 の Setaria アクセッションの遺伝子型を決定し、収量、植物構造、成長時間、バイオマス、穀粒品質、着色、耐病性関連形質を含む 226 セットの表現型 (68 形質) も収集しました。 幅広い気候環境で機能する遺伝子を特定するために、北緯 18.3 度 (三亜) から北緯 47.3 度 (チチハル) および東経 87.7 度 (ウルムチ) から東経 123.9 度 (チチハル) までの 13 の異なる場所でこれらの形質を研究しました。 11 年 (図 6a、補足図 13 および補足表 12)。
a、11 年間にわたる 13 の地理的場所からの表現型のコレクション。 括弧内の数字は、対応する場所で評価された年数と特性です。 この地図は、中国国家科学技術インフラである国立地球システム科学データセンターからのソースデータを使用して QGIS ソフトウェアによって作成されました。 b、異なる生育条件間の表現型の変動。 ヒートマップ内の異なる文字は、両側 ANOVA を使用して実施されたダンカンの多重比較検定による有意差 (P < 0.05) を表します。 ヒートマップの色は、スケーリングされた表現型値を表します。 1 から 41 までの表現型は補足表 13.c に対応します。c、247 セットの表現型の SV-GWAS (上) と SNP-GWAS (下) のマンハッタン プロット。 縦の破線は、ボンフェローニ補正された有意性閾値 (α = 0.05) を示します。 三角形は、SV-GWAS によってのみ検出される関連信号を示します。 d、さまざまなマーカーによって検出された表現型関連遺伝子座の頻度。 e, 680 のアクセッションを使用したグラフベースのゲノムからの SV とその近くの隣接 (± 50 kb) SNP 間の連鎖分析。 f、マーカーの異なるサブセットによる異なる表現型の精度。 灰色の線はさまざまな表現型を表し、色付きの点は、対応するマーカーが他よりも高い予測精度を示します。 接尾辞 cg および gwas は、それぞれ CropGBM および GWAS によって特徴の重要性に基づいて選択された効果の高いマーカー パネルを表します (方法)。 g、上位 20 の最も有効な変異体の塩基置換を使用した、収量 (n = 46) および穀粒品質関連形質 (n = 17) の改善率。 箱ひげ図では、25% と 75% の四分位がそれぞれ箱の下端と上端として表示され、中心線は中央値を示します。 ひげは四分位範囲の 1.5 倍まで伸びます。
ソースデータ
ほとんどの表現型が野外での生育環境に大きく影響されたことがわかりました(図6bおよび補足表13)。 さまざまな環境条件で繁殖の可能性を最適化し、遺伝資源をより効率的に活用するために、226 個の表現型すべてに対して GWAS およびゲノム選択 (GS) 研究を実施しました。 SVベースのGWASは、いくつかの形質についてSNPベースのGWAS効率を向上させることがわかりました(図6c、d)。 合計1,084のシグナルが60の形質の128の表現型と実質的に関連していることが特定され、シグナル/QTLの60(5.5%)はSV-GWASによってのみ検出されました(図6dおよび補足表14)。 さらに、連鎖不平衡分析により、SVの〜36.9%が隣接するSNP(±50 kb、R2 < 0.5)を持つLDにないことが示されました(図6e)。これは、SVに関連する豊富な遺伝情報がSNPマーカーによって捕捉されないことを示しています。
いくつかの形質を調べることによって、GWAS マッピングでグラフベースのゲノムと関連する SV を使用することの有用性を説明します。 見かけのアミロース含量(AAC)は、顆粒結合デンプン合成酵素遺伝子(GBSS/Waxy)によって決定されるように、さまざまな作物の食および調理の品質に影響を与える重要な要素です32,33。 私たちは、seita.4G022400 (GBSSI) 遺伝子から 1.6 kb 下流に位置する AAC 関連リード SV (染色体 4 上の 1,485,625 位の 196 bp 挿入、P < 1.39 × 10−16) を直接同定しましたが、リード SNP (P < 5.64 × 10−9)は、GBSSI 遺伝子から 398 kb 離れていることがわかります(補足図 14)。
また、2つのリードSV、染色体1の277 bpの欠失と染色体2の3.9 kbの欠失が、TGW(P < 2.73 × 10−6、Dingxi 2018)および花柄の長さ(P < 4.67)と実質的に関連していることも判明した。 × 10−7、Changzhi 2011)は SV-GWAS を通じて検出されましたが、これらの SV の 50 kb 間隔内では関連する SNP は検出できませんでした(補足図 15 および 16)。 興味深いことに、我々は、イネの生産と適応に重要な役割を果たしているイネ Ghd7 のホモログをコードする多面発現遺伝子 (seita.9G020100) を発見しました 34 が、SV-GWAS によってのみ検出されました。 リード SV は、出穂日 (P < 5.99 × 10−11、北京 2016)、葉の長さ (P < 3.92 × 10−9、安陽 2011)、主枝数 (P < 5.74 × 10−10、長志) とも実質的に関連しています。 2011)およびわらの重量(P < 1.31 × 10−6、Qitai 2014;補足図17)。 これらを総合すると、アワのSVにはSNPでは表されない追加の遺伝情報が含まれている可能性があることが示されています。 これらの GWAS 遺伝子座の一部はポジティブセレクションを受けている可能性があることに注意してください。 栽培亜集団C1〜C3の選択に関連する52のゲノム領域(補足表4)のうち、8つの領域は、穂番号、枝番号、羽化日、剛毛の色、粒のグリシンおよびアルギニン含有量に関してGWASのヒットと重複しています。 また、TGW や GW などの主要な家畜化形質では、すべての GWAS シグナルが domPAV にまたがっており、これらの SV がアワの進化に関連付けられていることもわかりました。
最後に、地理的に異なる環境下での 68 の農業形質および品質形質の GS 研究のためのさまざまなマーカーパネルの予測精度を開発し、評価しました。 数百のSNPおよびSVを使用すると、さまざまな表現型が一定範囲の予測GS精度を示し、表現型の97%で予測精度が0.7を超え、最も高い予測精度は0.95を超えました(北京の実生の葉の色;補足表15)。 SV のみのマーカーを使用した 2 つの形質は、他のマーカー サブセットと比較して精度が高く、SNP マーカーと SV マーカーの両方を使用した 167 個 (73.9%) の形質の精度は、SNP のみのマーカーと比較して 0.04% から 12.67% 増加したことがわかりました (図.6f および補足表 15)。 アワの繁殖の可能性を調査するために、46 の収量関連形質と 17 の穀物品質形質の表現型に対する 104 万個のハプロタイプの組み合わせを使用して、ゲノム推定育種価 (GEBV) を推定しました。 我々の結果は、収量特性と穀粒品質特性のGEBVがそれぞれ最大50%と49%改善できることを示しています(図6gおよび補足表16)。
アワは、東アジアの創始作物の 1 つとして広く考えられています1。その広い環境生育ニッチ、C4 光合成システム、比較的小さいゲノム、短い生育期間、および形質転換の容易さにより、変化の中で世界の食料安全保障に対処するための重要な作物種となっています。世界の気候。 私たちが集めた 110 個のコアセット参照レベルのゲノムは、1,844 個の S. italica および S. viridis のアクセッションとエコタイプの幅広い多様性を表しており、将来の生物学的研究や育種の取り組みにとって重要なリソースとして機能します。 これらのゲノムを使用して、セタリアの完全なパンゲノムおよびグラフベースのゲノムを確立することができました。これにより、野生および栽培セタリアのゲノム変異に関する洞察が得られ、アワの機能的ゲノム分析と精密育種のための貴重なツールが提供されます。
私たちの人口統計分析は、この重要な作物種の進化の手がかりを提供します。 私たちの分析により、アオキビ(W1)の直系祖先亜集団が特定され、ドリフト量(補足図3a)に基づいて、より広範囲の気候/環境条件に耐えることができるC3が次のように確立された可能性があることが示唆されました。栽培アワ亜集団の最初のもの。 110 個の新たに構築された Setaria ゲノムによって可能となり、アワの家畜化と改良に関連する可能性のあるゲノム領域を特定し、この家畜化された種がどのように進化したかについての遺伝的洞察を提供しました。
ショートリードリシーケンスデータを使用する場合、SV の識別は長い間困難でした。 それにもかかわらず、作物の栽培化、形質決定、農業改良における SV の重要な役割は、さまざまな研究で実証されています 6、7、8、9、10、11、12、13、14。 100 を超える参照レベルのゲノム配列を含む構築されたパンゲノムを使用して、セタリア ゲノムあたり約 10,000 の SV を同定しました。これはトマトで見られるものと同等ですが 35、イネよりは少ないです 8。 これらの SV、特に PAV のかなりの数は TE と関連しており、TE 活性がゲノムにおける SV 生成の重要なメカニズムであることと一致しています 36,37。 ゲノムにおける PAV の影響も遺伝子によって異なる可能性があり、実際に SV は低発現遺伝子に実質的に存在することがわかりました。 このパターンはイネでも観察され 7,8 、遺伝子発現進化の安定化モデル 38 と一致しており、低発現遺伝子はより弱い選択を受け、したがって PAV と関連する可能性が高いと予想されます 39,40。 最後に、他の作物の研究と同様に、SV もアワの形質決定の根底にあることを発見しました。これは、2 つの重要な家畜化遺伝子 SiGW3 と sh1 の研究で実証されました。
グラフベースのゲノムの構築により、ショートリードリシークエンシングを使用して大規模集団のSVの遺伝子型を特定し、13の異なる地理的場所にわたる68の形質について680のアワの系統でGWASおよびGSを実行することができ、それぞれが異なる気候生育条件を備えています。 我々は、様々な表現型に実質的に関連するSNPおよびSVを同定し、これらは異なる環境におけるアワのゲノム予測に使用できる可能性がある。 実際、SNP マーカーと SV マーカーの両方を併用すると、大部分の形質の予測精度が向上し、2 つの形質は SNP のみのマーカーと比較して SV のみのマーカーを使用した方が精度が高いことがわかりました。 この予測精度は、おそらく種または形質の特異性により、トマトで観察されたものよりも大幅に高くなっています 12。 私たちのグラフベースのゲノムを使用すると、収量と穀物の品質に関連する形質の潜在的な育種価値を推定することもでき、気候変動適応のためのアワ育種への道を提供します。
まとめると、私たちの調査は、遺伝的変異のより完全なカタログを提供するために作物のパンゲノムを分析することの有用性を強調しており、また、他の作物で遺伝的影響を持つSVの例の数が増えていることも合わせて強調しています6、7、8、9、10、11、12。 、13、14、我々はパンゲノム変異体が作物の進化と育種において重要な役割を果たしているというさらなる証拠を提供する。 これは、他の作物に適切な育種プログラムを開発する際に重要であることが判明し、マーカー支援育種、GS、および/またはゲノム編集による作物の改良を導き、加速するのに役立つ可能性があります。
配列決定された 1,004 のアワおよびエノコログサのすべての系統は、中国の北京と海南で少なくとも 4 世代にわたって精製されました。 サンプリングのために、私たちは2018年の生育期に、北京にある中国農業科学院作物科学研究所の実験場ですべての系統を植え付けました。 GWAS および GS 分析のために、異なる年に 13 の異なる環境で作物および穀物の品質特性を植えて検査しました (補足表 12 にリストされています)。
若い葉を収集し、臭化セチルトリメチルアンモニウム (CTAB) を使用してゲノム DNA を抽出し、製造業者 (Illumina Inc.) の指示に従って配列決定ライブラリーを構築するために使用しました。 ライブラリーは、Novogene の Illumina NovaSeq 6000 でペアエンド (NGS) 配列決定されました。 3 つの代表的なアクセッションについて、ロングリード ライブラリーの構築は標準プロトコール (Pacbio Inc.) に従い、Nextomics Bioscience の Pacbio RSII プラットフォームで配列決定されました。 他の 107 個の de novo アセンブルされたアクセッションのロングリード ライブラリの構築と配列決定は、Pacbio Sequel II プラットフォームを使用して Berry Genomics によって実行されました (補足表 5)。
TRIzol (Invitrogen) を使用してさまざまな組織から総メッセンジャー RNA を抽出し、NovaSeq 6000 プラットフォームによって配列決定しました。 BioNano では、3 つのアクセッション (Me34V、Ci846、および Yugu18) の生後 10 日の実生から新鮮な葉組織を収集し、BioNano Genomics の標準プロトコールに従って高分子量 DNA を抽出して標識しました。 すべての標識サンプルは、BioNano Genomics SAPHYR システムを使用してロードおよび分析されました。
1,844 のアクセッションの低品質シーケンシング リードは、デフォルト パラメーターを使用した fastp (v0.23.0)41 を使用して削除され、フィルター処理されたリードは、デフォルト パラメーターを使用する BWA (v0.7.12-r1039)42 を使用して Yugu1 参照ゲノムにマッピングされました。 非固有のマッピングされたリードと重複したリードは、それぞれ SAMtools (v1.7)43 と Genome Analysis Toolkit (GATK v4.1.4)44 を使用して除外されました。 SNP 呼び出しは GATK (v4.1.4) によって実行されました44。 SnpEff (v5.0)45 は、特定された SNP およびインデルの影響を注釈付けおよび予測するために使用されました。 1,844 のアクセッションの構造変異を特定するために、vg ツールキット (v1.28.0)46 をデフォルトのパラメーターで使用して、フィルタリングされたイルミナのショートリードを Setaria グラフベースの参照ゲノムと遺伝子型特定された SV にマッピングしました。
欠損頻度が 10% 未満でマイナー対立遺伝子頻度が 0.05 を超える両対立遺伝子 SNP または PAV は、系統解析用に保存されました。 SNP ベースの近隣結合系統樹は、MEGA-CC (v10.1.8)47 および SNPhylo (v2018-09-01)48 を標準設定と 1,000 のブートストラップ値で使用して推論されました。 SV ベースの最尤系統樹は、IQ-TREE (v2.1.2) を使用して 1,000 のブートストラップを備えたバイナリ PAV データに基づいて構築されました 49。 系統樹は、R パッケージである ggtree50 を使用して描画されました。 ADMIXTURE (v1.3.0)51 ソフトウェアを使用して、最初は 2 ~ 20 の範囲の k を使用して集団構造分析を実行しました。ここで、k = 7 が、これまでに知られているすべてのエノコログサのグループを分離する k の最小値であったため、その後選択されました16。 。 次に、k = 7 でさまざまなランダム シードを使用して ADMIXTURE を 10 回実行しました。
集団ゲノム分析のスクリプトは、https://github.com/qiangh06/Setaria-pan-genome/tree/main/Population%20genomic%20and%20Demographic%20inference に保管されています。 人口動態史の解析として、アワの 3 つのサブグループの形成過程を推定することを目的としました。 これらの分析では、PLINK (v.1.90) を使用して、ヘテロ接合性 > 0.05、最小対立遺伝子頻度 < 0.05、および遺伝子型決定率 < 90% の SNP をフィルター処理しました 52。 家畜化された部分集団 C1 ~ C3 と最も近い野生集団 W1 の間の進化的関係を再構築するために、R v4.13 で Admixtools (v2.0)23 を使用して、移動エッジのない混合グラフを構築しました。 モデルを受け入れるために最大絶対 f4 統計 Z スコア (|z-score|) のしきい値 <3.0 を使用し、残りの野生亜集団 W2 ~ W4 を順番に追加して、それらが移動エッジなしで組み込まれるかどうかを調査しました。 7 つの部分集団すべてを含む集団混合グラフも、W3 をアウトグループとして TreeMix (v1.13)22 を使用して推論されました。 我々は、GRoSS 法 53 を使用して、W1、C1、C2、および C3 からなる 4 つの集団混合グラフの各ブランチに沿ったポジティブ選択のためにゲノムをスキャンしました。
私たちは 2 つのアプローチを使用して 110 の多様な Setaria アクセッションを集めました。 3 つの高品質参照ゲノム (Me34V、Ci846、Yugu18) については、配列決定に Illumina NovaSeq 6000 および PacBio RSII プラットフォーム (補足表 5) を使用し、BioNano 光学マップで補完しました。 イルミナのショートリードの k-mer 分布に従って、これら 3 つのアクセッションのゲノム サイズは約 430 Mb であると推定されました。 その後、各アクセッションの 50 Gb を超える PacBio サブリード (>100 倍、補足表 5) が CANU (v2.2)24 および HERA (v1.0)25 によってコンティグにアセンブルされました。 Illumina リードで磨き、BioNano 物理マップでさらに補正した後、Me34V (398,819,634 bp、N50 = 21.1 Mb)、Ci846 (412,045,876 bp、N50 = 21.0 Mb)、および Yugu18 (409,028,184 bp、 N50 = 20.6 Mb)、それぞれ。 他の 107 のアクセッションについては、Illumina NovaSeq 6000 を使用して、40 倍を超えるショートリード データ (37.5 倍のデータを持つ Zhaogu1 を除く) で各アクセッションの配列を決定しました。 私たちは、Jellyfish (v2.3.0)54 と GenomeScope (v2.0)55 を使用して、ゲノムのサイズとヘテロ接合性を調べました。 調査されたゲノムヘテロ接合性に基づいて、Pacbio Sequel IIプラットフォームによる低ヘテロ接合性(<0.3%)および高ヘテロ接合性(≧0.3%)のアクセッションについて、それぞれ>50倍および>80倍のロングリードデータを生成しました(補足表5)。 その後、CANU24 および HERA25 パイプラインを使用して、これらの Setaria ゲノムを de novo で組み立てました。 全ゲノムコンティグ配列のセルフアライメントは、BWA-MEM (v0.7.12-r1039)42 のデフォルトパラメーターを使用して実行され、ヘテロ接合配列は Redundans (-t 10、-identity 0.55、-overlap 0.80、--) でフィルター処理されました。 noscaffolding、および -nogapクロージング) および Purge Haplotigs (デフォルトのパラメーターを使用)。 コンティグ配列間の重複は、BWA-MEM セルフアライメントの結果を使用してマージされました。
NGS データは、BWA-MEM (v0.7.12-r1039)42 を使用してゲノムにマッピングされ、結果は SAMtools (v1.7)43 による Q30 でフィルタリングされました。 最後に、ゲノム配列は、フィルター処理されたアライメントに基づいて Pilon (v1.22)56 を使用して修正されました。 Pilon によって 3 ラウンドのゲノム修正が実行されました。 最後に、Mummer (v4.0)57 をパラメーター「-mum -mincluster = 1000」で使用して、コンティグを参照ゲノムにアライメントして疑似染色体を構築しました。
我々は、1,440 個の胚植物遺伝子を含む BUSCO (v5.2.0)58 を使用して、アセンブリの遺伝子領域の完全性を評価しました。 遺伝子間領域のアセンブリの完全性を評価するために、LTR_retriever (v2.9.0)59 を使用した LAI を使用しました。 また、BWA (v0.7.12-r1039)42 をデフォルトのパラメーターで使用して、高品質の Illumina ショートリードを対応するアセンブリにマッピングすることで、ゲノムの完全性を評価しました。 K-mer ベースの完全性、品質、誤った重複の評価は Merqury (v1.3)60 によって実行されました。
非経験的方法と相同性ベースの方法を組み合わせて、組み立てられたゲノム内のリピートに注釈を付けました。 まず、LTR_FINDER (v1.05)61 とRepeatModeler (v4.0.6)62 をデフォルトのパラメーターで使用して、ab initio リピート ライブラリを構築しました。 予測リピート ライブラリーを PGSB リピーター データベース 63 と照合して、リピートを別個のファミリーに割り当てました。 次に、Repbase (v20.11) を使用して、RepeatMasker (v1.0.10)64 を使用して相同性ベースのアノテーションを実行しました。 最後に、同じリピートクラスに属する重複するリピート配列を結合しました。 異なるリピートクラスに属する重複するリピートについては、重複する領域を分割した。 さらに、タンデム リピート Finder65 を使用してタンデム リピートに注釈を付けました。
3 つの代表的な系統 (野生種、Me34V、在来種、Ci846、および現代品種、Yugu18) の全植物からのトランスクリプトーム データを使用しました。 各アクセッションからの RNA-seq データは、Trinity (v2.8.5)66 をデフォルトのパラメーターで使用して個別に組み立てられました。 Me34V、Ci846、Yugu18 の組み立てられた転写産物は、それぞれ野生品種、在来種、現代品種のアノテーションに使用されました。 UniProt SwissProt (v2020_01)67 タンパク質データベースと MAKER (v3.01.03)68 を使用して、各ゲノムにアノテーションを付けて遺伝子モデルを取得しました。 これらの遺伝子は、Augustus (v3.2.3)69 と SNAP (v2006-07-28)70 のトレーニングに使用され、結果として得られたトレーニング セットは、対応するゲノムのアノテーションに使用されました。 組み立てられた転写産物は EST 証拠として使用され、イネ (MSU v7)71、シロイヌナズナ (TAIR10)72、トウモロコシ (B73 RefGen_v4)73、ソルガム (v3.1.1)74、アワ (v2.2)5、 18、エノコログサ (v2.1)16 および UniProt SwissProt データベース (リリース-2017_01) をタンパク質の証拠として使用しました。 SNAP とオーガスタスによってトレーニングされたモデルを使用して、すべてのリピートマスクされたゲノムに対して 2 回目の遺伝子アノテーションが実行され、AED < 0.4 の遺伝子が保持されました。 InterProScan 5.0 (参考文献 75) を使用して、予測遺伝子の機能アノテーションを実行し、Gene Ontology (GO) および京都遺伝子およびゲノム百科事典 (KEGG) の用語を割り当てました。 機能アノテーションの結果に基づいて、TE 関連遺伝子をフィルタリングしました。
私たちは、GMAP を使用して、すべてのアノテーション付き遺伝子の CDS を栽培および野生 (W1) アワの 108 ゲノムとアラインメントしました (v2015-09-21)76。 遺伝子が >99% のカバー率と同一性でアラインメントされた場合、その遺伝子は対応するゲノムに存在するとみなされました。 我々は、マルコフ クラスタリング アプローチに基づいてパンゲノム解析を実行しました 77。 全対全比較は、1 × 10−5 の E 値カットオフを持つダイヤモンド (v0.9.25)78 を使用して実行されました。 続いて、OrthoFinder (v2.3.12)77 を使用して、すべてのペア遺伝子をクラスター化しました。 頻度に基づいて、遺伝子を次の 4 つのカテゴリに分類しました: コア (これらは 111 人全員に存在します)、ソフトコア (これらはサンプルの 90% 以上に存在しますが、すべてではありません。100 ~ 110 人に存在します)、ディスペンサブル (これらは 111 人全員に存在します) 1 人以上 90% 未満、2 ~ 99 人)およびプライベート(1 つのアクセッションのみに存在)。
112 個のゲノムにおける構造変異 (挿入、欠失、転座、および逆位) の特定には SyRI79 パイプラインを使用しました。 まず、Minimap2 (v2.21-r1071)80 を使用して、組み立てられた各ゲノムを Yugu1 参照ゲノムと位置合わせしました。 生のアライメント結果は、デフォルト パラメーターを備えた SyRI (v1.2)79 ソフトウェアを使用したバリエーション呼び出しにさらに使用されました。 次に、バリアント サイズが 50 bp を超える SV をフィルタリングしました。 フィルタリングされた結果から、挿入と削除は PAV として扱われました。 グラフベースのゲノム構築には vg ツールキット (v1.28.0)46 を使用しました。 まず、MUMmer (v4.0)57 を使用して、大きな PAV と反転を特定しました。 次に、SyRI によって検出された逆位を含む PAV が、vg ツールキット 46 を使用して Yugu1 線形参照ゲノムに統合されました。
高品質の SNP マーカー (MAF ≥ 0.05、欠落 < 0.1) に基づいて選択的スイープを特定するために、ヌクレオチド多様性、FST、および XPCLR という 3 つの異なる戦略を使用しました。 ヌクレオチド多様性と FST 分析には、20 kb のスライディングと 2 kb のステップ サイズで VCFtools (v0.1.17)81 を使用しました。 XPCLR プログラム (https://github.com/hardingnj/xpclr) を使用して XPCLR 解析を実行しました。
最初の 10 個の PCA を変量効果行列として Mixed-Model Association eXpedited プログラム (EMMAx、v20120210) を使用し、高品質の SV および SNP マーカー (MAF ≥ 0.05、欠落 <0.1) を使用して、680 のアクセッションにおける 226 の表現型に対して GWAS を実行しました。 独立メーカー (SNP および SV) の有効数は 640,288 と推定され、ボンフェローニ補正されたゲノム全体の有意性 (α = 0.01) によって有意性の閾値を定義しました。
候補遺伝子の同定には、次の戦略を使用しました。まず、各表現型の関連するすべての SNP/SV (P ≤ 7.81 × 10−8、ボンフェローニ補正されたゲノム全体の有意性閾値 (α = 0.01)) を 1 つのクラスターにグループ化しました。 SNP/SV と先頭の SNP/SV の間の距離は ≤ 50 kb であり、LD R2 ≥ 0.3 です。 グループ化された SNP/SV は関連遺伝子座として定義され、主要な SNP/SV によって表されました。 第二に、その相同遺伝子がイネまたはトウモロコシの対応する表現型と機能的に関連している場合、主要な SNP/SV の±50 kb 間隔で候補遺伝子を選択しました。
まず、CropGBM (v1. 1.2) 情報利得分析を通じて各 SNP および SV の特徴利得 (FG)/マーカー効果を推定する 82 ソフトウェア。 次に、FG の減少 (ROF = 1 − FGmax/FGi、FGmax はマーカーの最高 FG 値を表し、FGi は i 番目のマーカーの FG 値を表す) が 0.99 未満の場合、非常に効果的なマーカーが特定されました。 次に、各形質について、マーカーを次の 6 つのパネルにグループ化しました。SNPcg パネルには、ROF ≤ 0.99 で選択された非常に効果的な SNP マーカーが含まれていました。 SNPcg_gwas パネルは、ROF ≤ 0.99 で、GWAS からの有意に関連する SNP マーカーで選択された非常に効果的な SNP マーカーの集合セットでした (P ≤ 7.81 × 10−8)。 SVcg パネルには、ROF ≤ 0.99 で選択された非常に効果的な SV メーカーが含まれていました。 SVcg_gwas パネルは、ROF ≤ 0.99 および GWAS からの実質的に関連する SV マーカー (P ≤ 7.81 × 10−8) で選択された非常に効果的な SV マーカーの結合セットでした。 SNPSVcg パネルには、ROF ≤ 0.99 で選択された非常に効果的な SNP および SV マーカーが含まれていました。 SNPSVcg_gwas パネルは、ROF ≤ 0.99 および GWAS からの実質的に関連する SV マーカーで選択された非常に効果的な SNP および SV マーカーの結合セットでした (P ≤ 7.81 × 10−8、ボンフェローニ補正されたゲノム全体の有意性閾値 (α = 0.01))。
モデルの予測精度は、観察された表現型と推定された GEBV の間のピアソン相関を使用して、各マーカー パネルおよび対応する表現型について評価されました。 検証のためにデータセットを 580 行と 100 行にランダムに分割しました。 580 ラインはマーカー効果を推定するためのトレーニング セットとして使用され、その後残りの 100 ラインの GEBV を予測するために使用されました。 これはデータセットごとに 100 回複製されました。
繁殖の可能性を予測するために、63 のデータセット (さまざまな環境における 7 つの収量と 17 の穀物の品質関連形質) を使用しました。 対応する表現型の予測精度が最も高いマーカー パネルが選択されました。 次に、最も高い GEBV を持つアクセッションの上位 20 の高効率マーカーを使用して、104 万のハプロタイプの組み合わせをシミュレーションしました。 各表現型の改善率は \(\frac{{\rm{GEBV}}\max {\rm{\_}}{\mathrm{haplotype}}-{\rm{GEBV}}\max {\ rm{\_}}{\mathrm{cultivated}}}{{\rm{GEBV}}\max {\rm{\_}}{\mathrm{cultivated}}}\times 100 \%\)、ここで GEBVmax_haplotypeはシミュレーションされたハプロタイプの最高 GEBV を表し、GEBVmax_cultivated は栽培アワの最高 GEBV を示します。
過剰発現構築物を生成するために、SiGW3 の全長コード配列をエノコログサ アクセッション「A10」から増幅し、ユビキチン (UBI) プロモーターの制御下で pCAMBIA1305 にクローニングしました。 プライマー OE-GW3-F および OE-GW3-R を使用しました (補足表 17)。 SiGW3-OE ベクターを、EHA105 株を用いたアグロバクテリウム ツメファシエンス媒介形質転換によりアワ品種 Ci846 に形質転換しました。 SiGW3 の 3 つの独立したトランスジェニック過剰発現系統が同定され、T3 世代に自家受粉されました。 トランスジェニック過剰発現株の発現は、補足表 17 にリストされているプライマーを使用した qRT-PCR によってさらに検証されました。qRT-PCR 実験は以前に記載されているように実施されました 20。 約 200 個の WT 種子と 3 つの独立したトランスジェニック系統をランダムに選択し、Wseen 種子測定装置 SC-G で写真撮影および測定しました。
SiGW3 のプロモーターの 366 bp SV が遺伝子発現に及ぼす影響を検証するために、ニコチアナ ベンサミアナの葉を使用したデュアル LUC 一過性発現アッセイを採用しました。 最小35Sプロモーターによって駆動されるウミシイタケルシフェラーゼ(REN)レポーター遺伝子を内部対照として使用し、標的366bp挿入プロモーターおよび標的366bp欠失プロモーターによって駆動されるホタルルシフェラーゼ(LUC)をセタリア野生種から増幅した。それぞれ「A10」と品種「Yugu1」。 SiGW3 プロモーター配列の SV を増幅するために使用されるプライマーを補足表 17 に示します。 次に、3 つの構築されたベクターをアグロバクテリウム GV3101 に形質転換し、生後 4 週間の N. ベンサミアナの葉に共浸潤しました。 ルシフェラーゼシグナルは Tanon 5200 を使用して画像化し、Dual-Luciferase Reporter Assay System (E1910) キット (Promega) および Varioskan LUX (Thermo Fisher Scientific) を使用して測定しました。 各測定は 5 つの生物学的複製を使用して実行されました。 この研究で使用したすべての試薬は補足表 18 にリストされています。
この研究におけるすべての品種と表現型の収集場所の地理的位置情報は、R (v4.1.0) および QGIS (v3.16)84 ソフトウェアの ggplot2 (参考文献 83) パッケージを使用して地図上にマークされています。 標高マップのソース データは、中国国家科学技術インフラの国立地球システム科学データ センター (http://www.geodata.cn/data/datadetails.html?dataguid=78789&docid=4850) から収集されます。
研究デザインの詳細については、この記事にリンクされている Nature Portfolio Reporting Summary を参照してください。
すべてのロングリード シーケンス データと 3 つの Bionano cmap ファイルは、アクセッション コード BioProject PRJNA675302 で国立バイオテクノロジー情報センター データベースに保管されています。 組み立てられた 110 個のゲノムと注釈はすべて https://www.zenodo.org/record/7367881 に寄託されました。 生成された 1,004 件の NGS 再配列データは、アクセッション コード BioProject PRJNA841774 および PRJNA842100 で NCBI データベースに保管されています。 他の 294 のアワおよび 594 のエノコログサの全ゲノム配列データは、NCBI (BioProject PRJNA636263、PRJNA560514 および PRJNA265547) からダウンロードされました。 GWAS および GS 研究で使用される表現型は、https://doi.org/10.5281/zenodo.7755340 に寄託されています。 ソースデータはこのペーパーに付属しています。
このプロジェクトに関連するすべてのコードは、Github (https://github.com/qiangh06/Setaria-pan-genome) および Zenodo (https://doi.org/10.5281/zenodo.7743007) で入手できます85。
ヤン、Xら。 中国北部での初期のキビの使用。 手順国立アカデミー。 科学。 USA 109、3726–3730 (2012)。
論文 CAS PubMed PubMed Central Google Scholar
ラベル、JT 他。 倍数体バイオエネルギースイッチグラスにおける気候適応のゲノム機構。 Nature 590、438–444 (2021)。
論文 CAS PubMed PubMed Central Google Scholar
Peng, R. & Zhang, B. アワ: C4 プラントの新しいモデル。 トレンド植物科学。 26、199–201 (2020)。
論文 PubMed Google Scholar
Hu、H.、Mauro-Herrera、M.、Doust、AN モデル C4 草、Setaria の栽培化と改良。 フロント。 植物科学。 9, 719 (2018)。
記事 PubMed PubMed Central Google Scholar
ベネッツェン、JL et al. モデル植物 Setaria の参照ゲノム配列。 ナット。 バイオテクノロジー。 30、555–561 (2012)。
論文 CAS PubMed Google Scholar
医学博士プルガナン氏およびSA州ジャクソン氏 研究室から圃場まで作物のゲノミクスを進歩させています。 ナット。 ジュネット。 53、595–601 (2021)。
論文 CAS PubMed Google Scholar
Qin, P. et al. 33 の遺伝的に多様なイネ系統のパンゲノム解析により、隠れたゲノム変異が明らかになりました。 セル 184、3542 ~ 3558 (2021)。
論文 CAS PubMed Google Scholar
Zhao、Q.ら。 パンゲノム解析は、栽培イネと野生イネのゲノム変異の程度を明らかにします。 ナット。 ジュネット。 50、278–284 (2018)。
論文 CAS PubMed Google Scholar
Liu、Y.ら。 野生ダイズと栽培ダイズのパンゲノム。 セル 182、162–176 (2020)。
論文 CAS PubMed Google Scholar
Walkowiak, S. et al. 複数の小麦ゲノムにより、現代の育種における世界的な変異が明らかになりました。 ネイチャー 588、277–283 (2020)。
論文 CAS PubMed PubMed Central Google Scholar
ジャヤコディ、M.ら。 オオムギのパンゲノムは、突然変異育種の隠された遺産を明らかにします。 ネイチャー 588、284–289 (2020)。
論文 CAS PubMed PubMed Central Google Scholar
Zhou、Y.ら。 グラフ パンゲノムは欠落している遺伝性を捕捉し、トマトの育種を強化します。 ネイチャー 606、527–534 (2022)。
論文 CAS PubMed PubMed Central Google Scholar
Tang, D. et al. 野生および栽培ジャガイモのゲノム進化と多様性。 Nature 606、535–541 (2022)。
論文 CAS PubMed PubMed Central Google Scholar
ライ、ZN およびプルガナン、メリーランド州 家畜化におけるコピー数の変動。 トレンド植物科学。 24、352–365 (2019)。
論文 CAS PubMed Google Scholar
Zhang、G.ら。 アワ (Setaria italica) のゲノム配列は、草の進化とバイオ燃料の可能性についての洞察を提供します。 ナット。 バイオテクノロジー。 30、549–554 (2012)。
論文 CAS PubMed Google Scholar
マミディ、S.ら。 アオキビ Setaria viridis のゲノム リソースにより、農学的に価値のある遺伝子座の発見が可能になります。 ナット。 バイオテクノロジー。 38、1203–1210 (2020)。
論文 CAS PubMed PubMed Central Google Scholar
ティーレン、PM et al. 高度に形質転換可能な Setaria viridis ME034V の参照ゲノム。 G3(ベセスダ)。 10、3467–3478 (2020)。
論文 CAS PubMed PubMed Central Google Scholar
ヤン、Z.ら。 C4モデル系としてシロイヌナズナに似た生活環を持つミニアワ。 ナット。 Plants 6、1167–1178 (2020)。
論文 CAS PubMed Google Scholar
Jia、G.ら。 アワ (Setaria italica) のゲノム変異のハプロタイプ マップと農業形質のゲノムワイド関連研究。 ナット。 ジュネット。 45、957–961 (2013)。
論文 CAS PubMed Google Scholar
Zhao、M.ら。 DROOPY LEAF1 は、初期のブラシノステロイドシグナル伝達を調整することで葉の構造を制御します。 手順国立アカデミー。 科学。 USA 117、21766–21774 (2020)。
論文 CAS PubMed PubMed Central Google Scholar
リー、C.ら。 312 の登録の高深度再配列により、アワの局所適応が明らかになりました。 理論。 アプリジュネット。 134、1303–1317 (2021)。
論文 CAS PubMed Google Scholar
Pickrell, J. & Pritchard, J. ゲノム全体の対立遺伝子頻度データからの集団の分割と混合の推論。PLoS Genet。 8、e1002967 (2012)。
論文 CAS PubMed PubMed Central Google Scholar
マイヤー、R.ら。 人口履歴の複雑なモデルを f 統計に当てはめることの限界について。 Elife 12、85492 (2023)。
記事 Google Scholar
Koren, S. et al. Canu: 適応型 k-mer 重み付けとリピート分離による、スケーラブルで正確なロングリード アセンブリ。 ゲノム研究所 27、722–736 (2017)。
論文 CAS PubMed PubMed Central Google Scholar
Du、H.ら。 ほぼ完全なインディカ米ゲノムの配列決定と新規アセンブリ。 ナット。 共通。 8、15324 (2017)。
記事 PubMed PubMed Central Google Scholar
プルガナン医学博士とフラー博士、考古学的データは、植物の栽培化における進化の速度が遅いことを明らかにしています。 『Evolution』65、171–183 (2011)。
論文 PubMed Google Scholar
フラー、DQ et al. 拡大する考古学的記録によって明らかになった、植物の栽培化における収束進化と並行性。 手順国立アカデミー。 科学。 USA 111、6147–6152 (2014)。
論文 CAS PubMed PubMed Central Google Scholar
Liu、H.ら。 トランスポゾンの挿入により、アワの栽培中に自然な種子の粉砕が失われます。 モル。 バイオル。 進化。 39、msac078 (2022)。
論文 CAS PubMed PubMed Central Google Scholar
福永和也、松山聡、阿部明、小林正樹、伊藤和久。 Less Shattering1 (SvLes1) 遺伝子への転移因子の挿入は、アワ (Setaria italica) の家畜化に必ずしも関与しているわけではない。 ジュネ資源。 作物の進化。 68、2923–2930 (2021)。
記事 CAS Google Scholar
Duan、P. et al. GSE5 のプロモーターの自然変動は、イネの粒径の多様性に寄与します。 モル。 Plant 10、685–694 (2017)。
論文 CAS PubMed Google Scholar
Liu、J.ら。 GW5 はブラシノステロイドシグナル伝達経路で作用して、米の粒幅と重量を調節します。 ナット。 植物 3、1 ~ 7 (2017)。
記事 Google Scholar
Tian、Z.ら。 米デンプン生合成における対立遺伝子の多様性は、多様な米の食味と調理品質につながります。 手順国立アカデミー。 科学。 USA 106、21760–21765 (2009)。
論文 CAS PubMed PubMed Central Google Scholar
Guzmán, C. & Alvarez, JB 小麦ワックス状タンパク質: 多型、分子特性、およびデンプンの特性への影響。 理論。 アプリジュネット。 129、1–16 (2016)。
論文 PubMed Google Scholar
Xue、W.ら。 Ghd7 の自然変動は、イネの出穂日と収量潜在力の重要な調節因子です。 ナット。 ジュネット。 40、761–767 (2008)。
論文 CAS PubMed Google Scholar
アロンジェ、M. et al. 広範な構造変異がトマトの遺伝子発現と作物の改良に与える大きな影響。 セル 182、145–161 (2020)。
論文 CAS PubMed PubMed Central Google Scholar
Yan, H.、Haak, DC、Li, S.、Huang, L. & Bombarely, A. イネの農業形質の基礎となる対立遺伝子変異を同定するための転移因子ベースのマーカーの探索。 プラントコミューン。 3、100270 (2022)。
論文 CAS PubMed Google Scholar
Della Coletta, R.、Qiu, Y.、Ou, S.、Hufford, MB & Hirsch, CN パンゲノムが作物のゲノムと改良をどのように変えるか。 ゲノムバイオル。 22、3 (2021)。
記事 PubMed PubMed Central Google Scholar
Glassberg, EC、Gao, Z.、Harpak, A.、Lan, X. & Pritchard, JK ヒト遺伝子発現に対する弱い選択的制約の証拠。 遺伝学 211、757–772 (2019)。
論文 CAS PubMed Google Scholar
クレムリング、KAG et al. 発現の調節不全は、トウモロコシにおけるレア対立遺伝子の負荷および適応度の低下と相関します。 ネイチャー 555、520–523 (2018)。
論文 CAS PubMed Google Scholar
Lye, Z.、Choi, JY & Purugganan, MD イネの遺伝子発現に対する有害な突然変異とまれな対立遺伝子の負荷。 モル。 バイオル。 進化。 39、msac193 (2022)。
論文 CAS PubMed PubMed Central Google Scholar
Chen, S.、Zhou, Y.、Chen, Y. & Gu, J. fastp: 超高速オールインワン FASTQ プリプロセッサ。 バイオインフォマティクス 34、i884–i890 (2018)。
記事 PubMed PubMed Central Google Scholar
Li, H. & Durbin, R. Burrows-Wheeler 変換による高速かつ正確なショートリード アライメント。 バイオインフォマティクス 25、1754–1760 (2009)。
論文 CAS PubMed PubMed Central Google Scholar
リー、Hら。 シーケンス アライメント/マップ形式と SAMtools。 バイオインフォマティクス 25、2078–2079 (2009)。
記事 PubMed PubMed Central Google Scholar
マッケンナ、A.ら。 ゲノム解析ツールキット: 次世代 DNA シーケンス データを解析するための MapReduce フレームワーク。 ゲノム研究所 20、1297–1303 (2010)。
論文 CAS PubMed PubMed Central Google Scholar
シンゴラニ、P. et al. 一塩基多型の影響を注釈付けおよび予測するためのプログラム、SnpEff。 フライ 6、80–92 (2012)。
論文 CAS PubMed PubMed Central Google Scholar
ヒッキー、G.ら。 vg ツールキットを使用したパンゲノム グラフの構造バリアントのジェノタイピング。 ゲノムバイオル。 21、35 (2020)。
記事 PubMed PubMed Central Google Scholar
Kumar, S.、Stecher, G.、Peterson, D.、Taむら, K. MEGA-CC: 自動化された反復データ分析のための分子進化遺伝学分析プログラムのコンピューティング コア。 バイオインフォマティクス 28、2685–2686 (2012)。
論文 CAS PubMed PubMed Central Google Scholar
Lee, T.-H.、Guo, H.、Wang, X.、Kim, C. & Paterson, AH SNPhylo: 膨大な SNP データから系統樹を構築するパイプライン。 BMC ゲノミクス 15、162 (2014)。
記事 PubMed PubMed Central Google Scholar
Nguyen, L.-T.、Schmidt, HA、von Haeseler, A. & Minh、BQ IQ-TREE: 最尤系統を推定するための高速かつ効果的な確率論的アルゴリズム。 モル。 バイオル。 進化。 32、268–274 (2015)。
論文 CAS PubMed Google Scholar
Yu、G.、Smith、DK、Zhu、H.、Guan、Y.、Lam、TT-Y。 ggtree: 共変量やその他の関連データを含む系統樹の視覚化と注釈付けのための R パッケージ。 方法 Ecol. 進化。 8、28–36 (2017)。
記事 Google Scholar
Alexander, DH & Lange, K. 個人の祖先推定のための ADMIXTURE アルゴリズムの機能強化。 BMC バイオインフォマティクス 12、1–6 (2011)。
記事 Google Scholar
パーセル、S.ら。 PLINK: 全ゲノム関連および集団ベースの連鎖分析のためのツールセット。 午前。 J. ハム。 ジュネット。 81、559–575 (2007)。
論文 CAS PubMed PubMed Central Google Scholar
レフォヨ・マルティネス、A. 他複雑な集団履歴におけるポジティブセレクション下の遺伝子座の特定。 ゲノム研究所 29、1506–1520 (2019)。
記事 PubMed PubMed Central Google Scholar
Marçais, G. & Kingsford, C. k-mer の出現を効率的に並行してカウントするための高速でロックフリーのアプローチ。 バイオインフォマティクス 27、764–770 (2011)。
記事 PubMed PubMed Central Google Scholar
ヴァルチャー、GW 他 GenomeScope: ショートリードからの高速リファレンスフリーゲノムプロファイリング。 バイオインフォマティクス 33、2202–2204 (2017)。
論文 CAS PubMed PubMed Central Google Scholar
ウォーカー、BJ 他 Pilon: 包括的な微生物の変異検出とゲノムアセンブリの改善のための統合ツール。 PLoS ONE 9、e112963 (2014)。
記事 PubMed PubMed Central Google Scholar
Marçais, G. et al. MUMmer4: 高速かつ多用途のゲノム アライメント システム。 PLoS コンピューティング。 バイオル。 14、e1005944 (2018)。
記事 PubMed PubMed Central Google Scholar
Simão, FA、Waterhouse, RM、Ioannidis, P.、Kriventseva, EV & Zdobnov, EM BUSCO: シングルコピーオルソログを使用したゲノムアセンブリとアノテーションの完全性の評価。 バイオインフォマティクス 31、3210–3212 (2015)。
論文 PubMed Google Scholar
Ou, S.、Chen, J. & Jiang, N. LTR Assembly Index (LAI) を使用したゲノム アセンブリの品質の評価。 核酸研究所 46、e126 (2018)。
PubMed PubMed Central Google Scholar
Rhie, A.、Walenz, BP、Koren, S. & Phillippy, AM Merqury: ゲノム アセンブリの参照フリーの品質、完全性、および段階的評価。 ゲノムバイオル。 21、245 (2020)。
論文 CAS PubMed PubMed Central Google Scholar
Xu, Z. & Wang, H. LTR_FINDER: 全長 LTR レトロトランスポゾンを予測するための効率的なツール。 核酸研究所 35、W265–W268 (2007)。
記事 PubMed PubMed Central Google Scholar
Price, AL、Jones, NC & Pevzner, PA 大きなゲノムにおけるリピートファミリーのデノボ同定。 バイオインフォマティクス 21、i351–i358 (2005)。
論文 CAS PubMed Google Scholar
Nussbaumer, T. et al. MIPS PlantsDB: 比較植物ゲノム研究のためのデータベース フレームワーク。 核酸研究所 41、D1144–D1151 (2013)。
論文 CAS PubMed Google Scholar
Chen, N.RepeatMasker を使用してゲノム配列内の反復要素を識別します。 カー。 プロトック。 バイオインフォマティクス https://doi.org/10.1002/0471250953.bi0410s05 (2004)。
Benson, G. Tandemrepeats finder: DNA 配列を分析するプログラム。 核酸研究所 27、573–580 (1999)。
論文 CAS PubMed PubMed Central Google Scholar
Grabherr、MG et al. 参照ゲノムを使用しない RNA-Seq データからの全長トランスクリプトーム アセンブリ。 ナット。 バイオテクノロジー。 29、644–652 (2011)。
論文 CAS PubMed PubMed Central Google Scholar
Bairoch, A. & Apweiler, R. SWISS-PROT タンパク質配列データベースとその補足 TrEMBL (2000 年)。Nucleic Acids Res. 28、45–48 (2000)。
論文 CAS PubMed PubMed Central Google Scholar
カンタレル、BLら。 MAKER: 新興モデル生物ゲノム用に設計された使いやすいアノテーション パイプライン。 ゲノム研究所 18、188–196 (2008)。
論文 CAS PubMed PubMed Central Google Scholar
Keller, O.、Kollmar, M.、Stanke, M.、Waack, S. タンパク質の多重配列アライメントを利用した新しいハイブリッド遺伝子予測法。 バイオインフォマティクス 27、757–763 (2011)。
論文 CAS PubMed Google Scholar
Korf, I. 新規ゲノムにおける遺伝子発見。 BMC バイオインフォマティクス 5、59 (2004)。
記事 PubMed PubMed Central Google Scholar
Ouyang, S. et al. TIGR イネゲノム注釈リソース: 改善と新機能。 核酸研究所 35、D883–D887 (2007)。
論文 CAS PubMed Google Scholar
Lamesch、P. et al. シロイヌナズナ情報リソース (TAIR): 改良された遺伝子アノテーションと新しいツール。 核酸研究所 40、D1202–D1210 (2012)。
論文 CAS PubMed Google Scholar
Jiao, Y. et al. 単一分子技術による改良されたトウモロコシ参照ゲノム。 ネイチャー 546、524–527 (2017)。
論文 CAS PubMed PubMed Central Google Scholar
マコーミック、RF 他。 ソルガムの二色参照ゲノム: 改良されたアセンブリ、遺伝子注釈、トランスクリプトーム アトラス、およびゲノム構成のシグネチャ。 Plant J. 93、338–354 (2018)。
論文 CAS PubMed Google Scholar
ジョーンズ、P. et al. InterProScan 5: ゲノムスケールのタンパク質機能分類。 バイオインフォマティクス 30、1236–1240 (2014)。
論文 CAS PubMed PubMed Central Google Scholar
Wu、TD および渡辺、CK GMAP: mRNA および EST 配列のゲノム マッピングおよびアライメント プログラム。 バイオインフォマティクス 21、1859–1875 (2005)。
論文 CAS PubMed Google Scholar
Emms, DM & Kelly, S. OrthoFinder: 比較ゲノミクスのための系統発生的オルソロジー推論。 ゲノムバイオル。 20、238 (2019)。
記事 PubMed PubMed Central Google Scholar
Buchfink, B.、Xie, C. & Huson, DH DIAMOND を使用した高速かつ高感度のタンパク質アライメント。 ナット。 方法 12、59–60 (2015)。
論文 CAS PubMed Google Scholar
ゴエル、M.、サン、H.、ジャオ、W.-B. & Schneeberger, K. SyRI: 全ゲノムアセンブリからのゲノム再構成と局所配列の差異の発見。 ゲノムバイオル。 20、277 (2019)。
記事 PubMed PubMed Central Google Scholar
Li、H. Minimap2: ヌクレオチド配列のペアワイズ アライメント。 バイオインフォマティクス 34、3094–3100 (2018)。
論文 CAS PubMed PubMed Central Google Scholar
Danecek、P. et al. バリアント呼び出しフォーマットと VCFtools。 バイオインフォマティクス 27、2156–2158 (2011)。
論文 CAS PubMed PubMed Central Google Scholar
ヤン、J.ら。 LightGBM: アンサンブル学習を通じてゲノム設計された作物の育種を加速します。 ゲノムバイオル。 22、271 (2021)。
記事 PubMed PubMed Central Google Scholar
Wickham, H. ggplot2: データ分析のためのエレガントなグラフィックス (Springer-Verlag、2016)。
QGIS。 無料でオープンソースの地理情報システム。 http://www.qgis.org (2022)。
彼、Q. Setaria (1.0) のパンゲノムで使用されるスクリプトとコード。 ゼノド https://doi.org/10.5281/zenodo.7743007 (2023)。
リファレンスをダウンロードする
著者らは、N. Stein (ライプニッツ植物遺伝学および作物研究所) および J. Jia (CAAS) からの批判的なコメントとアドバイスに感謝しています。 著者らは、ゲノムアセンブリとプロジェクトディスカッションに関する有益な技術的支援について、H. Lu (中国国立稲研究所、CAAS) イネ生物学国家重点研究所) と J. Gao (海南海洋水産科学アカデミー) に感謝します。 著者らは、人口推論研究に関する有益なコメントをくださった K. Xie (Guangzhou Genedenovo Biotechnology Co., Ltd.) に感謝します。 コンピューティングのサポートを提供してくださった L. ying (ICS Bioinformatics Group) に感謝します。 この研究は、中国国家重点研究開発プログラム (2021YFF1000100)、中国国家重点研究開発プログラム (2019YFD1000700/2019YFD1000701 および 2018YFD1000700)、中国国立自然科学財団 (31871692 および 31871630)、中国からの助成金によって支援されました。農業研究システム (CARS-06-13.5)、中国農業科学院農業科学技術イノベーション プログラム、中国科学院戦略的優先研究プログラム (補助金 XDPB16)、米国国立科学財団植物ゲノム研究プログラム (IOS) -1546218 および 2204374)、Zegar Family Foundation、NYU アブダビ研究所。
これらの著者は同様に貢献しました: Qiang He、Sha Tang、Hui Zhi、Jinfeng Chen。
中国農業科学院作物科学研究所、北京、中国
Qiang He、Sha Tang、Hui Zhi、Jun Zhang、Hongkai Liang、Hui Zhang、Lihe Xing、Wei Zhang、Hailong Wang、Hongpo Wu、Liwei Wang、Ping Yang、Guanqing Jia、Xianmin Diao
中国科学院動物研究所、害虫およびげっ歯類の総合管理国家重点実験室、北京、中国
ジンフェン・チェン
ゲノミクスおよびシステム生物学センター、ニューヨーク大学、ニューヨーク市、ニューヨーク州、米国
オルノブ・アラム & マイケル・プルガナン
深セン支店、広東嶺南現代農業研究所、農業農村省ゲノム解析研究所、深セン農業ゲノミクス研究所、中国農業科学院、深セン、中国
李ホンボ
中国、陽陵の西北農工大学農学部
ホイ・チャン & バイリ・フォン
山西農業大学生命科学部(中国、大谷)
シュカイ・リー
中国北京農業大学植物遺伝育種学部植物生理学および生化学の国家重点研究所および国立トウモロコシ改良センター
シー・ジュンペン&ライ・ジンシェン
中国、保定市、河北大学生命科学・グリーン開発研究所生命科学部
ドゥ・フイロン
安養農業科学アカデミー、中国安陽
Lu Xing、Hongsyan Yan、Zhonqiang Song、Jinrong Liu
中国、太原市、山西農業大学農業遺伝資源研究センター
ワン・ハイガン、シャン・ティエン、チャオ・ジージュン
中国ウルムチ市、新疆農業科学院穀物研究所
フォン・グオジュン
中国、大同、山西農業大学高緯度作物研究所
Ruifeng Guo、Wenjuan Zhu、Yuemei Ren
河北省農林科学院乾燥地農業研究所、衡水、中国
ホンボ・ハオ & ミンツェ・リー
中国長治、山西農業大学アワ研究所
張愛英 & 郭二胡
黒竜江省農業科学院チチハル準学院、チチハル市、中国
フォン・ヤン&チンクアン・リー
滄州農林科学アカデミー、滄州市、中国
ヤンリー・リウ & ボホン・ティアン
定渓農業科学院、中国定渓市
シャオチン・ジャオ&ルイリン・ジア
北京農業遺伝資源およびバイオテクノロジー北京重点実験室、北京農林科学院、北京、中国
張潔偉&魏建華
ゲノミクスおよびシステム生物学センター、ニューヨーク大学アブダビ、アブダビ、アラブ首長国連邦
マイケル・プルガナン
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
XD が研究を考案し、設計しました。 QH、ST、H. Zhi.、H. Liang.、HW、GJ が資料の準備に参加しました。 QH、HD、JS、JL はゲノムのアセンブリとアノテーションに貢献しました。 QH は、ゲノム変異型のコーリング、選択的シグネチャーの同定、ゲノムワイド関連研究、およびゲノム予測を実行しました。 QH、XL、JZ、OA、および MP は集団遺伝学分析を実行しました。 QH と JZ は、遺伝子発現、機能強化、および表現型データのクリーニングを実行しました。 ST は sh1 の QTL マッピングに貢献しました。 ST、H. Zhang.、LX、WZ、および HW は、SiGW3 の機能特性評価に貢献しました。 ST、HZ、LW、LX、HY、ZS、JL、HW、XT、ZQ、GF、RG、WZ、YR、HH、ML、AZ、EG、FY、QL、YL、BT、XZ、RJ、BF、 JZ と JW は材料を植え、さまざまな地理的場所で表現型データを収集しました。 QH、MP、XD は結果の統合と概念化を監督し、原稿を執筆しました。 ST、H. Li.、PY、JC、GJ が原稿を改訂しました。 著者全員が原稿を読み、編集し、承認しました。
Guanqing Jia、Michael Purugganan、または Xianmin Diao との通信。
著者らは競合する利害関係を宣言していません。
Nature Genetics は、この研究の査読に貢献してくれた Aureliano Bombarely 氏、Chuyu Ye 氏、およびその他の匿名の査読者に感謝します。 査読者レポートが利用可能です。
発行者注記 Springer Nature は、発行された地図および所属機関の管轄権の主張に関して中立を保っています。
補足 1 ~ 5 および補足図。 1~17。
補足表 1 ~ 18。
ソースデータ。
図 2a、b、d のソース データ。
図3a、bのソースデータ。
図4cのソースデータ。
図 5h–k,m のソースデータ。
図6b、f、gのソースデータ。
オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。
転載と許可
He、Q.、Tang、S.、Zhi、H. 他。 モデル植物 Setaria のグラフベースのゲノムおよびパンゲノム変異。 ナット・ジュネ (2023)。 https://doi.org/10.1038/s41588-023-01423-w
引用をダウンロード
受信日: 2022 年 7 月 23 日
受理日: 2023 年 5 月 8 日
公開日: 2023 年 6 月 8 日
DOI: https://doi.org/10.1038/s41588-023-01423-w
次のリンクを共有すると、誰でもこのコンテンツを読むことができます。
申し訳ございませんが、現在この記事の共有リンクは利用できません。
Springer Nature SharedIt コンテンツ共有イニシアチブによって提供