腸内細菌データの標準化(Normalization)についてメモ

腸内細菌の解析方法にあたって、まず収集した糞便などの各サンプルからDNAを抽出する。その後、PCRで16SrRNA遺伝子の一部を増幅する。生成されたPCR産物にインデックス配列（バーコード配列）やアダプター配列を加える。サンプルのDNA濃度を等しい濃度に調整して、次世代シーケンサーによるシーケンシングを行う。

しかし、シーケンスデータによって得られたリードの深さはサンプルごとに異なるため、データを標準化（Normalization）する必要がある。

*インデックス配列（バーコード配列）：複数のサンプルから得られたDNA配列を識別するためのもの
*アダプター配列：シーケンシングに必要な配列
*PCR (ポリメラーゼ連鎖反応, polymerase chain reaction)法…DNA配列を選択的に増幅するための手法。わずかな鋳型DNAから、長いDNA配列中の目的の領域のみを増幅することができる。これによって、DNA配列のデータを使った解析が可能となる。

すなわち、シーケンシングによって得られる各サンプルのリード数の差＝元の各サンプル中の総細菌数の差とはいえない。（DNA濃度を調整するため、元のサンプルの細菌数を比べることができない。）
そのため、それらを比較するために実際の細菌の数ではなく、占有率を計算する。

さらに、色々なひとから腸内細菌のサンプルを集めても、すべてのサンプルにそれらの分類群（OTU）が存在するわけではない。腸内細菌叢の大きな特徴として、分類群（OTU）において”ゼロ”が多くみられる、ということがある。これは、統計解析をする際の重大な課題である。

OTU：腸内細菌がサンプル中にどれくらい存在しているかを表すための単位として、OTU (Operational taxonomic unit) が用いられる。OTUは、16SrRNA遺伝子などの腸内細菌の遺伝子の塩基配列を、その類似度によって分類したものの単位である。

Normalization（標準化）の２つの古い方法

TSS (Total Sum Normalization)：サンプル中の各OTUのリード数をそのサンプルのリード総数で割ることによって、データを比率に変換したもの。
Rarefying（直訳：希薄化する）：各サンプルを任意のサンプルの最も低い読み取り深度にランダムにサブサンプリングすることにより、データを希薄化するもの。

しかしながら、これらの２つの方法には欠点があることが指摘されてきた。

１の方法は、分散不均一性（heteroskedasticity）の問題を抱えている¹。また、特定のOTUの存在量を他のOTUの存在量と比較する際に疑似相関が生じる可能性がある²。

２の方法は、隠れた有用なデータを失ってしまう³。

分散不均一性とは？：分散不均一性は、ある一定期間の前後で観測された変数の標準誤差が一定ではないときに生じる。分散不均一性は、線形回帰モデリングの前提に反する。
この反対の意味を持つものが、等分散性であり、等分散性は残渣項の分散が一定またはほぼ一定である状態である。これは線形回帰モデルの前提の一つである。

そして、比率や希薄化の代わりとして、新たな方法が提案されてきた。

Upper quantile normalization (UQ)
CSS normalization
Variance stabilizing transformation (分散安定化変換) ; DESeq‐VS
Trimmed mean of M‐values normalization ; edgeR‐TMM

Zero-inflated Gaussian mixed models (ZIGMMs)は、その一つである。

Zero-inflated Gaussian mixed models (ZIGMMs)を用いた研究

Han-Na Kim, Yeojun Yun, Seungho Ryu, Yoosoo Chang, Min-Jung Kwon, Juhee Cho, Hocheol Shin, Hyung-Lae Kim,
Correlation between gut microbiota and personality in adults: A cross-sectional study, Brain, Behavior, and Immunity,
Volume 69, 2018, Pages 374-385.

1　Weiss, S., Xu, Z. Z., Peddada, S., Amir, A., Bittinger, K., Gonzalez, A., & Knight, R. (2017). Normalization and microbial differential abundance strategies depend upon data characteristics. Microbiome, 5(1), 27. https://doi.org/10.1186/s40168-017-0237-y

2　Jackson, D. A. (1997). Compositional data in community ecology: The paradigm or peril of proportions. Ecology, 78(3), 929–940. https://doi.org/10.1890/0012-9658(1997)078[0929:CDICET]2.0.CO;2

3　Weiss, S., Xu, Z. Z., Peddada, S., Amir, A., Bittinger, K., Gonzalez, A., & Knight, R. (2017). Normalization and microbial differential abundance strategies depend upon data characteristics. Microbiome, 5(1), 27. https://doi.org/10.1186/s40168-017-0237-y

返信を残す返信をキャンセル