gtsummaryで対象者特性の表を作る! 

gtsummaryパッケージというとても便利なパッケージをみつけたので、まとめておきます。
色々とできることはあるのですが、ひとまず最も基本的な(?)対象者特性の表を作ってみようと思います。

gtsummaryパッケージとは?

一言でいえば、簡単にデータを要約した表が作れるパッケージ。

対象者特性のような、論文にはかかせない基本的な表だけではなく、
回帰分析の結果などの表も簡単に作成できてしまう。

簡単

データセットの中には、通常、さまざまな種類(連続変数やカテゴリー変数など)の変数が含まれている。そして、変数の種類によって、表に示したい代表値(平均値、標準偏差、中央値、n、割合など)は異なる。
このパッケージはそれらの変数を自動的に識別し、適切な計算してくれる。

タイタニック号のデータセットを使って表を作成してみる。

このデータセットには、タイタニック号の乗客や搭乗員の年齢、性別、座席のクラス、生存したかといったデータが含まれている。

#データセットの読み込み
df <- data.frame(Titanic)

tbl_summaryでデータの要約ができる。
#データの要約
df %>% tbl_summary()

一瞬で表が完成した。

Class(座席のクラス)や、Sex(性別)、Age(大人か子どもか)、Survived(生存)は、カテゴリー変数として認識し、n(%)を計算してくれた。

Freqは、連続変数として認識され、中央値(四分位数:第一四分位数と第三四分位数)が計算された。

平均(標準偏差)を計算する方法もあるようだけど、後日確認。

確認したい点

  • 連続変数から、平均値(標準偏差)を一気に求める方法。
  • 小数点第一位まで表す方法。

返信を残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です