記事
Software for Bayesian Statistics
ベイズ統計用ソフトウェア
In this summary we introduce the papers published in the special issue on Bayesian statistics. This special issue comprises 20 papers on Bayesian statistics and Bayesian inference on different topics such as general packages for hierarchical linear model fitting, survival models, clinical trials, missing values, time series, hypothesis testing, priors, approximate Bayesian computation, and others.
本稿では、ベイズ統計学特集号に掲載された論文を紹介します。この特集号は、階層線形モデルフィッティングの一般パッケージ、生存モデル、臨床試験、欠損値、時系列、仮説検定、事前確率、近似ベイズ計算など、さまざまなトピックに関するベイズ統計とベイズ推論に関する20の論文で構成されています。
New Frontiers in Bayesian Modeling Using the INLA Package in R
RのINLAパッケージを使用したベイジアンモデリングの新たなフロンティア
The INLA package provides a tool for computationally efficient Bayesian modeling and inference for various widely used models, more formally the class of latent Gaussian models. It is a non-sampling based framework which provides approximate results for Bayesian inference, using sparse matrices. The swift uptake of this framework for Bayesian modeling is rooted in the computational efficiency of the approach and catalyzed by the demand presented by the big data era. In this paper, we present new developments within the INLA package with the aim to provide a computationally efficient mechanism for the Bayesian inference of relevant challenging situations.
INLAパッケージは、広く使用されているさまざまなモデル(より正式には潜在ガウスモデルのクラス)の計算効率の高いベイジアンモデリングと推論のためのツールを提供します。これは、スパース行列を使用してベイズ推論の近似結果を提供する非サンプリングベースのフレームワークです。ベイジアンモデリングのためのこのフレームワークの迅速な採用は、アプローチの計算効率に根ざしており、ビッグデータ時代によってもたらされた需要によって触媒されています。この論文では、関連する困難な状況のベイズ推論のための計算効率の高いメカニズムを提供することを目的として、INLAパッケージ内の新しい開発を紹介します。
Sequential Monte Carlo Methods in the nimble and nimbleSMC R Packages
nimbleおよびnimbleSMC Rパッケージのシーケンシャル・モンテカルロ法
nimble is an R package for constructing algorithms and conducting inference on hierarchical models. The nimble package provides a unique combination of flexible model specification and the ability to program model-generic algorithms. Specifically, the package allows users to code models in the BUGS language, and it allows users to write algorithms that can be applied to any appropriate model. In this paper, we introduce the nimbleSMC R package. nimbleSMC contains algorithms for state-space model analysis using sequential Monte Carlo (SMC) techniques that are built using nimble. We first provide an overview of state-space models and commonly-used SMC algorithms. We then describe how to build a state-space model in nimble and conduct inference using existing SMC algorithms within nimbleSMC. SMC algorithms within nimbleSMC currently include the bootstrap filter, auxiliary particle filter, ensemble Kalman filter, IF2 method of iterated filtering, and a particle Markov chain Monte Carlo (MCMC) sampler. These algorithms can be run in R or compiled into C++ for more efficient execution. Examples of applying SMC algorithms to linear autoregressive models and a stochastic volatility model are provided. Finally, we give an overview of how model-generic algorithms are coded within nimble by providing code for a simple SMC algorithm. This illustrates how users can easily extend nimble’s SMC methods in high-level code.
nimbleは、アルゴリズムを構築し、階層モデルで推論を行うためのRパッケージです。機敏なパッケージは、柔軟なモデル仕様とモデル汎用アルゴリズムをプログラムする機能のユニークな組み合わせを提供します。具体的には、このパッケージを使用すると、ユーザーはBUGS言語でモデルをコーディングでき、ユーザーは任意の適切なモデルに適用できるアルゴリズムを記述できます。このホワイトペーパーでは、nimbleSMC Rパッケージについて紹介します。nimbleSMCには、nimbleを使用して構築されたシーケンシャル モンテカルロ(SMC)手法を使用した状態空間モデル解析のアルゴリズムが含まれています。まず、状態空間モデルと一般的に使用されるSMCアルゴリズムの概要を説明します。次に、nimbleで状態空間モデルを構築し、nimbleSMC内で既存のSMCアルゴリズムを使用して推論を行う方法について説明します。nimbleSMC内のSMCアルゴリズムには、現在、ブートストラップフィルター、補助粒子フィルター、アンサンブルカルマンフィルター、反復フィルタリングのIF2法、および粒子マルコフ連鎖モンテカルロ(MCMC)サンプラーが含まれます。これらのアルゴリズムは、Rで実行することも、C++にコンパイルしてより効率的に実行することもできます。SMCアルゴリズムを線形自己回帰モデルと確率的ボラティリティモデルに適用する例が示されています。最後に、単純なSMCアルゴリズムのコードを提供することで、モデルジェネリックアルゴリズムがNimble内でどのようにコーディングされるかを概説します。これは、ユーザーがnimbleのSMCメソッドを高水準コードで簡単に拡張できる方法を示しています。
bamlss: A Lego Toolbox for Flexible Bayesian Regression (and Beyond)
bamlss:柔軟なベイズ回帰(およびそれ以降)のためのレゴ・ツールボックス
Over the last decades, the challenges in applied regression and in predictive modeling have been changing considerably: (1) More flexible regression model specifications are needed as data sizes and available information are steadily increasing, consequently demanding for more powerful computing infrastructure. (2) Full probabilistic models by means of distributional regression – rather than predicting only some underlying individual quantities from the distributions such as means or expectations – is crucial in many applications. (3) Availability of Bayesian inference has gained in importance both as an appealing framework for regularizing or penalizing complex models and estimation therein as well as a natural alternative to classical frequentist inference. However, while there has been a lot of research on all three challenges and the development of corresponding software packages, a modular software implementation that allows to easily combine all three aspects has not yet been available for the general framework of distributional regression. To fill this gap, the R package bamlss is introduced for Bayesian additive models for location, scale, and shape (and beyond) – with the name reflecting the most important distributional quantities (among others) that can be modeled with the software. At the core of the package are algorithms for highly-efficient Bayesian estimation and inference that can be applied to generalized additive models or generalized additive models for location, scale, and shape, or more general distributional regression models. However, its building blocks are designed as “Lego bricks” encompassing various distributions (exponential family, Cox, joint models, etc.), regression terms (linear, splines, random effects, tensor products, spatial fields, etc.), and estimators (MCMC, backfitting, gradient boosting, lasso, etc.). It is demonstrated how these can be easily combined to make classical models more flexible or to create new custom models for specific modeling challenges.
過去数十年にわたって、応用回帰と予測モデリングの課題は大きく変化しています:(1)データサイズと利用可能な情報が着実に増加しているため、より柔軟な回帰モデルの仕様が必要であり、その結果、より強力なコンピューティングインフラストラクチャが求められています。(2)分布回帰による完全な確率モデルは、平均や期待値などの分布から一部の基礎となる個々の量のみを予測するのではなく、多くのアプリケーションで重要です。(3)ベイズ推論の利用可能性は、複雑なモデルとその中の推定を正則化または罰則化するための魅力的なフレームワークとして、また古典的な頻度論的推論の自然な代替手段として、重要性を増しています。しかし、3つの課題すべてと対応するソフトウェアパッケージの開発については多くの研究が行われてきましたが、3つの側面すべてを簡単に組み合わせることができるモジュラーソフトウェアの実装は、分布回帰の一般的なフレームワークにはまだ利用できませんでした。このギャップを埋めるために、Rパッケージbamlssは、位置、スケール、形状(およびそれ以降)のベイズ加法モデルに導入され、その名前はソフトウェアでモデル化できる最も重要な分布量(とりわけ)を反映しています。このパッケージの中核となるのは、場所、スケール、形状の一般化加法モデルや一般化加法モデル、またはより一般的な分布回帰モデルに適用できる、高効率のベイズ推定と推論のためのアルゴリズムです。ただし、そのビルディングブロックは、さまざまな分布(指数ファミリー、Cox、ジョイントモデルなど)、回帰項(線形、スプライン、変量効果、テンソル積、空間場など)、および推定量(MCMC、バックフィッティング、勾配ブースティング、投げ縄など)を含む「レゴブロック」として設計されています。これらを簡単に組み合わせて、従来のモデルをより柔軟にしたり、特定のモデリングの課題に対して新しいカスタムモデルを作成したりする方法を実証します。
Bayesian Item Response Modeling in R with brms and Stan
brmsとStanを使用したRでのベイジアン項目応答モデリング
Item response theory (IRT) is widely applied in the human sciences to model persons’ responses on a set of items measuring one or more latent constructs. While several R packages have been developed that implement IRT models, they tend to be restricted to respective pre-specified classes of models. Further, most implementations are frequentist while the availability of Bayesian methods remains comparably limited. I demonstrate how to use the R package brms together with the probabilistic programming language Stan to specify and fit a wide range of Bayesian IRT models using flexible and intuitive multilevel formula syntax. Further, item and person parameters can be related in both a linear or non-linear manner. Various distributions for categorical, ordinal, and continuous responses are supported. Users may even define their own custom response distribution for use in the presented framework. Common IRT model classes that can be specified natively in the presented framework include 1PL and 2PL logistic models optionally also containing guessing parameters, graded response and partial credit ordinal models, as well as drift diffusion models of response times coupled with binary decisions. Posterior distributions of item and person parameters can be conveniently extracted and postprocessed. Model fit can be evaluated and compared using Bayes factors and efficient cross-validation procedures.
アイテムレスポンス理論(IRT)は、1つ以上の潜在的構成物を測定する一連のアイテムに対する人の反応をモデル化するために、人間科学に広く適用されています。IRTモデルを実装するいくつかのRパッケージが開発されていますが、それらは事前に指定されたモデルのそれぞれのクラスに制限される傾向があります。さらに、ほとんどの実装は頻度論的ですが、ベイズ法の利用可能性は比較的限られています。Rパッケージbrmsを確率的プログラミング言語Stanとともに使用して、柔軟で直感的なマルチレベル式構文を使用して、さまざまなベイジアンIRTモデルを指定し、適合させる方法を示します。さらに、アイテムと人のパラメータは、線形または非線形の両方の方法で関連付けることができます。カテゴリ応答、順序応答、および連続応答のさまざまな分布がサポートされています。ユーザーは、提示されたフレームワークで使用するために、独自のカスタム応答分布を定義することもできます。提示されたフレームワークでネイティブに指定できる一般的なIRTモデルクラスには、1PLおよび2PLロジスティックモデルが含まれ、オプションで推測パラメータ、段階的応答および部分的なクレジット順序モデル、およびバイナリ決定と組み合わせた応答時間のドリフト拡散モデルも含まれます。アイテムと人物のパラメータの事後分布は、簡単に抽出して後処理できます。モデル適合は、ベイズ因子と効率的な交差検証手順を使用して評価および比較できます。
Efficient Bayesian Structural Equation Modeling in Stan
Stanにおける効率的なベイズ構造方程式モデリング
Structural equation models comprise a large class of popular statistical models, including factor analysis models, certain mixed models, and extensions thereof. Model estimation is complicated by the fact that we typically have multiple interdependent response variables and multiple latent variables (which may also be called random effects or hidden variables), often leading to slow and inefficient posterior sampling. In this paper, we describe and illustrate a general, efficient approach to Bayesian SEM estimation in Stan, contrasting it with previous implementations in R package blavaan (Merkle and Rosseel 2018). After describing the approaches in detail, we conduct a practical comparison under multiple scenarios. The comparisons show that the new approach is clearly better. We also discuss ways that the approach may be extended to other models that are of interest to psychometricians.
構造方程式モデルは、因子分析モデル、特定の混合モデル、およびそれらの拡張を含む、一般的な統計モデルの大規模なクラスで構成されています。モデル推定は、通常、複数の相互依存応答変数と複数の潜在変数(変量効果または隠れ変数とも呼ばれる)があり、事後サンプリングが遅く非効率的になることが多いという事実によって複雑になります。この論文では、StanでのベイジアンSEM推定に対する一般的で効率的なアプローチについて説明し、Rパッケージblavaanでの以前の実装と対比します(Merkle and Rosseel 2018)。アプローチを詳細に説明した上で、複数のシナリオで実践的な比較を行います。比較は、新しいアプローチが明らかに優れていることを示しています。また、このアプローチを心理測定学者が関心のある他のモデルに拡張する方法についても説明します。
ABCpy: A High-Performance Computing Perspective to Approximate Bayesian Computation
ABCpy:ベイズ計算を近似するためのハイパフォーマンス・コンピューティングの視点
ABCpy is a highly modular scientific library for approximate Bayesian computation (ABC) written in Python. The main contribution of this paper is to document a software engineering effort that enables domain scientists to easily apply ABC to their research without being ABC experts; using ABCpy they can easily run large parallel simulations without much knowledge about parallelization. Further, ABCpy enables ABC experts to easily develop new inference schemes and evaluate them in a standardized environment and to extend the library with new algorithms. These benefits come mainly from the modularity of ABCpy. We give an overview of the design of ABCpy and provide a performance evaluation concentrating on parallelization. This points us towards the inherent imbalance in some of the ABC algorithms. We develop a dynamic scheduling MPI implementation to mitigate this issue and evaluate the various ABC algorithms according to their adaptability towards high-performance computing.
ABCpyは、Pythonで記述された近似ベイズ計算(ABC)用の高度にモジュール化された科学ライブラリです。この論文の主な貢献は、ドメインサイエンティストがABCの専門家でなくてもABCを研究に簡単に適用できるようにするソフトウェアエンジニアリングの取り組みを文書化することです。ABCpyを使用すると、並列化に関する知識があまりなくても、大規模な並列シミュレーションを簡単に実行できます。さらに、ABCpyを使用すると、ABCの専門家は新しい推論スキームを簡単に開発し、標準化された環境で評価し、新しいアルゴリズムでライブラリを拡張できます。これらの利点は、主にABCpyのモジュール性から来ています。ABCpyの設計の概要を説明し、並列化に焦点を当てたパフォーマンス評価を提供します。これは、一部のABCアルゴリズムに固有の不均衡を示しています。この問題を軽減するために動的スケジューリングMPI実装を開発し、さまざまなABCアルゴリズムを高性能コンピューティングへの適応性に応じて評価します。
pexm: A JAGS Module for Applications Involving the Piecewise Exponential Distribution
pexm:区分的指数分布を含むアプリケーション向けのJAGSモジュール
In this study, we present a new module built for users interested in a programming language similar to BUGS to fit a Bayesian model based on the piecewise exponential (PE) distribution. The module is an extension to the open-source program JAGS by which a Gibbs sampler can be applied without requiring the derivation of complete conditionals and the subsequent implementation of strategies to draw samples from unknown distributions. The PE distribution is widely used in the fields of survival analysis and reliability. Currently, it can only be implemented in JAGS through methods to indirectly specify the likelihood based on the Poisson or Bernoulli probabilities. Our module provides a more straightforward implementation and is thus more attractive to the researchers aiming to spend more time exploring the results from the Bayesian inference rather than implementing the Markov Chain Monte Carlo algorithm. For those interested in extending JAGS, this work can be seen as a tutorial including important information not well investigated or organized in other materials. Here, we describe how to use the module taking advantage of the interface between R and JAGS. A short simulation study is developed to ensure that the module behaves well and a real illustration, involving two PE models, exhibits a context where the module can be used in practice.
この研究では、BUGSに似たプログラミング言語に関心のあるユーザー向けに構築された新しいモジュールを提示し、区分指数(PE)分布に基づくベイジアンモデルを適合させます。このモジュールは、オープンソースプログラムJAGSの拡張機能であり、完全な条件の導出や、未知の分布からサンプルを抽出するための戦略のその後の実装を必要とせずに、Gibbsサンプラを適用できます。PE分布は、生存分析と信頼性の分野で広く使用されています。現在、JAGSで実装できるのは、ポアソン確率またはベルヌーイ確率に基づいて尤度を間接的に指定する方法のみです。私たちのモジュールは、より簡単な実装を提供するため、マルコフ連鎖モンテカルロアルゴリズムを実装するよりも、ベイズ推論の結果の調査により多くの時間を費やすことを目指す研究者にとってより魅力的です。JAGSの拡張に関心のある人にとって、この作業は、他の資料では十分に調査または整理されていない重要な情報を含むチュートリアルと見なすことができます。ここでは、RとJAGSのインターフェースを活かしたモジュールの使い方を説明します。モジュールが適切に動作することを確認するために短いシミュレーションスタディが作成され、2つのPEモデルを含む実際の図が、モジュールを実際に使用できるコンテキストを示しています。
qgam: Bayesian Nonparametric Quantile Regression Modeling in R
qgam:Rでのベイズノンパラメトリック分位点回帰モデリング
Generalized additive models (GAMs) are flexible non-linear regression models, which can be fitted efficiently using the approximate Bayesian methods provided by the mgcv R package. While the GAM methods provided by mgcv are based on the assumption that the response distribution is modeled parametrically, here we discuss more flexible methods that do not entail any parametric assumption. In particular, this article introduces the qgam package, which is an extension of mgcv providing fast calibrated Bayesian methods for fitting quantile GAMs (QGAMs) in R. QGAMs are based on a smooth version of the pinball loss of Koenker (2005), rather than on a likelihood function, hence jointly achieving satisfactory accuracy of the quantile point estimates and coverage of the corresponding credible intervals requires adopting the specialized Bayesian fitting framework of Fasiolo, Wood, Zaffran, Nedellec, and Goude (2021b). Here we detail how this framework is implemented in qgam and we provide examples illustrating how the package should be used in practice.
一般化加法モデル(GAM)は、柔軟な非線形回帰モデルであり、mgcv Rパッケージによって提供される近似ベイズ法を使用して効率的に近似できます。mgcvによって提供されるGAM手法は、応答分布がパラメトリックにモデル化されるという仮定に基づいていますが、ここでは、パラメトリックな仮定を伴わない、より柔軟な方法について説明します。特に、この記事では、Rで分位数GAM(QGAM)を適合するための高速に較正されたベイズ法を提供するmgcvの拡張であるqgamパッケージを紹介します。QGAMは、尤度関数ではなく、Koenker(2005)のピンボール損失の滑らかなバージョンに基づいているため、分位点推定の満足のいく精度と対応する信頼区間のカバレッジを共同で達成するには、Fasiolo、Wood、Zaffran、Nedellec、およびGoude(2021b)の特殊なベイズフィッティングフレームワークを採用する必要があります。ここでは、このフレームワークがqgamでどのように実装されているかを詳しく説明し、パッケージを実際にどのように使用すべきかを示す例を示します。
dalmatian: A Package for Fitting Double Hierarchical Linear Models in R via JAGS and nimble
dalmatian:JAGSとnimbleを介してRで二重階層線形モデルをフィッティングするためのパッケージ
Traditional regression models, including generalized linear mixed models, focus on understanding the deterministic factors that affect the mean of a response variable. Many biological studies seek to understand non-deterministic patterns in the variance or dispersion of a phenotypic or ecological response variable. We describe a new R package, dalmatian, that provides methods for fitting double hierarchical generalized linear models incorporating fixed and random predictors of both the mean and variance. Models are fit via Markov chain Monte Carlo sampling implemented in either JAGS or nimble and the package provides simple functions for monitoring the sampler and summarizing the results. We illustrate these functions through an application to data on food delivery by breeding pied flycatchers (Ficedula hypoleuca). Our intent is that this package makes it easier for practitioners to implement these models without having to learn the intricacies of Markov chain Monte Carlo methods.
一般化線形混合モデルを含む従来の回帰モデルは、応答変数の平均に影響を与える決定論的要因を理解することに重点を置いています。多くの生物学的研究は、表現型または生態学的応答変数の分散または分散における非決定論的パターンを理解しようとしています。ここでは、平均と分散の両方の固定予測子とランダム予測子を組み込んだ二重階層一般化線形モデルを適合する方法を提供する新しいRパッケージdalmatianについて説明します。モデルは、JAGSまたはNIMBLEで実装されたマルコフ連鎖モンテカルロサンプリングを介して適合し、パッケージはサンプラを監視して結果を要約するための簡単な機能を提供します。これらの機能を、ヒタキ(Ficedula hypoleuca)の繁殖による食物配送に関するデータに適用することで説明します。私たちの意図は、このパッケージにより、実務家がマルコフ連鎖モンテカルロ法の複雑さを学ぶことなく、これらのモデルを簡単に実装できるようにすることです。
BayesSUR: An R Package for High-Dimensional Multivariate Bayesian Variable and Covariance Selection in Linear Regression
BayesSUR:高次元多変量ベイズ変数と線形回帰における共分散選択のためのRパッケージ
In molecular biology, advances in high-throughput technologies have made it possible to study complex multivariate phenotypes and their simultaneous associations with high-dimensional genomic and other omics data, a problem that can be studied with high-dimensional multi-response regression, where the response variables are potentially highly correlated. To this purpose, we recently introduced several multivariate Bayesian variable and covariance selection models, e.g., Bayesian estimation methods for sparse seemingly unrelated regression for variable and covariance selection. Several variable selection priors have been implemented in this context, in particular the hotspot detection prior for latent variable inclusion indicators, which results in sparse variable selection for associations between predictors and multiple phenotypes. We also propose an alternative, which uses a Markov random field (MRF) prior for incorporating prior knowledge about the dependence structure of the inclusion indicators. Inference of Bayesian seemingly unrelated regression (SUR) by Markov chain Monte Carlo methods is made computationally feasible by factorization of the covariance matrix amongst the response variables. In this paper we present BayesSUR, an R package, which allows the user to easily specify and run a range of different Bayesian SUR models, which have been implemented in C++ for computational efficiency. The R package allows the specification of the models in a modular way, where the user chooses the priors for variable selection and for covariance selection separately. We demonstrate the performance of sparse SUR models with the hotspot prior and spike-and-slab MRF prior on synthetic and real data sets representing eQTL or mQTL studies and in vitro anti-cancer drug screening studies as examples for typical applications.
分子生物学では、ハイスループット技術の進歩により、複雑な多変量表現型とそれらが高次元のゲノムデータや他のオミクスデータとの同時関連性を研究することが可能になりました。この問題は、応答変数が潜在的に高い相関を持つ高次元多応答回帰で研究することができます。この目的のために、私たちは最近、いくつかの多変量ベイズ変数および共分散選択モデル、たとえば、変数および共分散選択のための一見無関係なスパース回帰のベイズ推定法を導入しました。このコンテキストでは、いくつかの変数選択事前確率、特に潜在変数包含指標のホットスポット検出が実装されており、これにより、予測変数と複数の表現型との間の関連性に対する変数選択がまばらになります。また、包含指標の依存構造に関する事前知識を組み込むために、マルコフ確率場(MRF)事前分布を使用する代替案も提案します。マルコフ連鎖モンテカルロ法によるベイズ一見無関係な回帰(SUR)の推論は、応答変数間の共分散行列の因数分解によって計算可能になります。このホワイトペーパーでは、計算効率のためにC++で実装されたさまざまなベイジアンSURモデルをユーザーが簡単に指定して実行できるRパッケージであるBayesSURを紹介します。Rパッケージでは、モデルをモジュール方式で指定でき、ユーザーは変数選択と共分散選択の事前確率を別々に選択できます。ホットスポット事前分布とスパイクアンドスラブMRF先行分布を持つスパースSURモデルの性能を、eQTLまたはmQTL研究、およびin vitro抗がん剤スクリーニング研究を典型的なアプリケーションの例として表す合成データセットと実際のデータセットで実証します。
Modeling Univariate and Multivariate Stochastic Volatility in R with stochvol and factorstochvol
stochvolとfactorstochvolを使用したRの単変量および多変量確率的ボラティリティのモデル化
Stochastic volatility (SV) models are nonlinear state-space models that enjoy increasing popularity for fitting and predicting heteroskedastic time series. However, due to the large number of latent quantities, their efficient estimation is non-trivial and software that allows to easily fit SV models to data is rare. We aim to alleviate this issue by presenting novel implementations of five SV models delivered in two R packages. Several unique features are included and documented. As opposed to previous versions, stochvol is now capable of handling linear mean models, conditionally heavy tails, and the leverage effect in combination with SV. Moreover, we newly introduce factorstochvol which caters for multivariate SV. Both packages offer a user-friendly interface through the conventional R generics and a range of tailor-made methods. Computational efficiency is achieved via interfacing R to C++ and doing the heavy work in the latter. In the paper at hand, we provide a detailed discussion on Bayesian SV estimation and showcase the use of the new software through various examples.
確率的ボラティリティ(SV)モデルは、ヘテロスケダスティックな時系列のフィッティングと予測で人気が高まっている非線形状態空間モデルです。しかし、潜在量が多いため、効率的な推定は容易ではなく、SVモデルをデータに簡単に適合させることができるソフトウェアはまれです。この問題を軽減するために、2つのRパッケージで提供される5つのSVモデルの新しい実装を紹介します。いくつかのユニークな機能が含まれており、文書化されています。以前のバージョンとは対照的に、stochvolは線形平均モデル、条件付きで重いテール、SVと組み合わせたてこ比効果を処理できるようになりました。また、多変量SVに対応したfactorstochvolを新たに導入しました。どちらのパッケージも、従来のRジェネリックとさまざまなオーダーメイドの方法を通じて、ユーザーフレンドリーなインターフェースを提供します。計算効率は、RからC++へのインターフェースと、後者での重い作業を行うことで実現されます。手元の論文では、ベイジアンSV推定に関する詳細な説明を提供し、さまざまな例を通じて新しいソフトウェアの使用を紹介します。
Shrinkage in the Time-Varying Parameter Model Framework Using the R Package shrinkTVP
RパッケージshrinkTVPを使用した時間変パラメーター・モデル・フレームワークの収縮
Time-varying parameter (TVP) models are widely used in time series analysis to flexibly deal with processes which gradually change over time. However, the risk of overfitting in TVP models is well known. This issue can be dealt with using appropriate global-local shrinkage priors, which pull time-varying parameters towards static ones. In this paper, we introduce the R package shrinkTVP (Knaus, Bitto-Nemling, Cadonna, and FrühwirthSchnatter 2021), which provides a fully Bayesian implementation of shrinkage priors for TVP models, taking advantage of recent developments in the literature, in particular those of Bitto and Frühwirth-Schnatter (2019) and Cadonna, Frühwirth-Schnatter, and Knaus (2020). The package shrinkTVP allows for posterior simulation of the parameters through an efficient Markov Chain Monte Carlo scheme. Moreover, summary and visualization methods, as well as the possibility of assessing predictive performance through log-predictive density scores, are provided. The computationally intensive tasks have been implemented in C++ and interfaced with R. The paper includes a brief overview of the models and shrinkage priors implemented in the package. Furthermore, core functionalities are illustrated, both with simulated and real data.
時変パラメータ(TVP)モデルは、時間とともに徐々に変化するプロセスを柔軟に処理するために、時系列解析で広く使用されています。ただし、TVPモデルでオーバーフィットするリスクはよく知られています。この問題は、時間的に変化するパラメータを静的なパラメータに引き寄せる適切なグローバルローカル収縮事前分布を使用して対処できます。この論文では、最近の文献、特にBitto and Frühwirth-Schnatter (2019)とCadonna, Frühwirth-Schnatter, and Knaus (2020)の最近の進展を利用して、TVPモデルの収縮事前分布の完全なベイズ実装を提供するRパッケージshrinkTVP (Knaus, Bitto-Nemling, Cadonna, and FrühwirthSchnatter 2021)を紹介します。パッケージshrinkTVPは、効率的なマルコフ連鎖モンテカルロ法によるパラメータの事後シミュレーションを可能にします。さらに、要約および視覚化方法、および対数予測密度スコアによる予測パフォーマンスの評価の可能性が提供されます。計算負荷の高いタスクはC++で実装され、Rとインターフェイスされています。このホワイトペーパーには、パッケージに実装されているモデルと収縮事前分布の簡単な概要が含まれています。さらに、シミュレーションデータと実際のデータの両方で、主要な機能が示されています。
BVAR: Bayesian Vector Autoregressions with Hierarchical Prior Selection in R
BVAR:Rでの階層的事前選択によるベイジアン・ベクトル自己回帰
Vector autoregression (VAR) models are widely used for multivariate time series analysis in macroeconomics, finance, and related fields. Bayesian methods are often employed to deal with their dense parameterization, imposing structure on model coefficients via prior information. The optimal choice of the degree of informativeness implied by these priors is subject of much debate and can be approached via hierarchical modeling. This paper introduces BVAR, an R package dedicated to the estimation of Bayesian VAR models with hierarchical prior selection. It implements functionalities and options that permit addressing a wide range of research problems, while retaining an easy-to-use and transparent interface. Features include structural analysis of impulse responses, forecasts, the most commonly used conjugate priors, as well as a framework for defining custom dummy-observation priors. BVAR makes Bayesian VAR models user-friendly and provides an accessible reference implementation.
ベクトル自己回帰(VAR)モデルは、マクロ経済学、金融、および関連分野の多変量時系列解析に広く使用されています。ベイズ法は、その密集したパラメータ化に対処するためによく使用され、事前情報を介してモデル係数に構造を課します。これらの事前確率が示唆する情報性の程度の最適な選択は、多くの議論の対象であり、階層モデリングを通じてアプローチすることができます。本稿では、階層的な事前選択によるベイジアンVARモデルの推定に特化したRパッケージであるBVARについて紹介します。これは、使いやすく透過的なインターフェースを維持しながら、幅広い研究問題に対処できる機能とオプションを実装しています。機能には、インパルス応答の構造解析、予測、最も一般的に使用される共役事前確率、およびカスタムダミー観測事前確率を定義するためのフレームワークが含まれます。BVARは、ベイジアンVARモデルをユーザーフレンドリーにし、アクセス可能な参照実装を提供します。
BNPmix: An R Package for Bayesian Nonparametric Modeling via Pitman-Yor Mixtures
BNPmix:Pitman-Yor混合によるベイズノンパラメトリックモデリングのためのRパッケージ
BNPmix is an R package for Bayesian nonparametric multivariate density estimation, clustering, and regression, using Pitman-Yor mixture models, a flexible and robust generalization of the popular class of Dirichlet process mixture models. A variety of model specifications and state-of-the-art posterior samplers are implemented. In order to achieve computational efficiency, all sampling methods are written in C++ and seamless integrated into R by means of the Rcpp and RcppArmadillo packages. BNPmix exploits the ggplot2 capabilities and implements a series of generic functions to plot and print summaries of posterior densities and induced clustering of the data.
BNPmixは、ベイズノンパラメトリック多変量密度推定、クラスタリング、および回帰のためのRパッケージであり、Pitman-Yor混合モデルを使用します。これは、一般的なクラスのDirichletプロセス混合モデルの柔軟で堅牢な一般化です。さまざまなモデル仕様と最先端のポスタリオールサンプラーが実装されています。計算効率を達成するために、すべてのサンプリング方法はC++で記述され、RcppおよびRcppArmadilloパッケージを使用してRにシームレスに統合されます。BNPmixはggplot2の機能を活用し、データの事後密度と誘導クラスタリングの要約をプロットおよび出力するための一連の汎用関数を実装します。
A Bayesian Approach for Model-Based Clustering of Several Binary Dissimilarity Matrices: The dmbc Package in R
いくつかのバイナリ非類似度行列のモデルベースクラスタリングのためのベイジアンアプローチ:Rのdmbcパッケージ
We introduce the new package dmbc that implements a Bayesian algorithm for clustering a set of binary dissimilarity matrices within a model-based framework. Specifically, we consider the case when S matrices are available, each describing the dissimilarities among the same n objects, possibly expressed by S subjects (judges), or measured under different experimental conditions, or with reference to different characteristics of the objects themselves. In particular, we focus on binary dissimilarities, taking values 0 or 1 depending on whether or not two objects are deemed as dissimilar. We are interested in analyzing such data using multidimensional scaling (MDS). Differently from standard MDS algorithms, our goal is to cluster the dissimilarity matrices and, simultaneously, to extract an MDS configuration specific for each cluster. To this end, we develop a fully Bayesian three-way MDS approach, where the elements of each dissimilarity matrix are modeled as a mixture of Bernoulli random vectors. The parameter estimates and the MDS configurations are derived using a hybrid Metropolis-Gibbs Markov Chain Monte Carlo algorithm. We also propose a BIC-like criterion for jointly selecting the optimal number of clusters and latent space dimensions. We illustrate our approach referring both to synthetic data and to a publicly available data set taken from the literature. For the sake of efficiency, the core computations in the package are implemented in C/C++. The package also allows the simulation of multiple chains through the support of the parallel package.
モデルベースのフレームワーク内でバイナリ非類似度行列のセットをクラスタリングするためのベイジアンアルゴリズムを実装する新しいパッケージdmbcを紹介します。具体的には、S行列が利用可能であり、それぞれが同じn個のオブジェクト間の非類似性を記述し、おそらくSの被験者(裁判官)によって表現されるか、異なる実験条件下で測定されるか、またはオブジェクト自体の異なる特性を参照して測定される場合を考えます。特に、バイナリの非類似度に焦点を当て、2つのオブジェクトが非類似と見なされるかどうかに応じて値0または1を取ります。このようなデータを多次元スケーリング法(MDS)を用いて解析することに関心があります。標準のMDSアルゴリズムとは異なり、非類似度行列をクラスター化すると同時に、各クラスターに固有のMDS構成を抽出することを目標としています。この目的のために、各非類似度行列の要素をベルヌーイ確率ベクトルの混合物としてモデル化する、完全ベイズ3ウェイMDSアプローチを開発します。パラメーターの推定値とMDS構成は、ハイブリッド メトロポリス-ギブス マルコフ連鎖モンテカルロ アルゴリズムを使用して導出されます。また、最適なクラスター数と潜在空間次元を共同で選択するためのBICのような基準を提案します。ここでは、合成データと文献から取得した公開されているデータセットの両方を参照したアプローチを説明します。効率を上げるために、パッケージのコア計算はC/C++で実装されています。また、このパッケージでは、パラレル・パッケージのサポートにより、複数のチェーンのシミュレーションも可能です。
Informed Bayesian Inference for the A/B Test
A/Bテストのための情報に基づいたベイズ推論
Booming in business and a staple analysis in medical trials, the A/B test assesses the effect of an intervention or treatment by comparing its success rate with that of a control condition. Across many practical applications, it is desirable that (1) evidence can be obtained in favor of the null hypothesis that the treatment is ineffective; (2) evidence can be monitored as the data accumulate; (3) expert prior knowledge can be taken into account. Most existing approaches do not fulfill these desiderata. Here we describe a Bayesian A/B procedure based on Kass and Vaidyanathan (1992) that allows one to monitor the evidence for the hypotheses that the treatment has either a positive effect, a negative effect, or, crucially, no effect. Furthermore, this approach enables one to incorporate expert knowledge about the relative prior plausibility of the rival hypotheses and about the expected size of the effect, given that it is non-zero. To facilitate the wider adoption of this Bayesian procedure we developed the abtest package in R. We illustrate the package options and the associated statistical results with a fictitious business example and a real data medical example.
ビジネスで活況を呈し、医療試験の定番分析であるA / Bテストは、介入または治療の成功率を対照疾患の成功率と比較することにより、その効果を評価します。多くの実用的なアプリケーションにわたって、(1)治療が効果がないという帰無仮説を支持する証拠を得ることができることが望ましいです。(2)データが蓄積されるにつれて証拠を監視できます。(3)専門的な事前知識を考慮に入れることができます。ほとんどの既存のアプローチは、これらのデシデラータを満たしていません。ここでは、Kass and Vaidyanathan(1992)に基づくベイジアンA / B手順について説明します。これにより、治療にはプラスの効果、マイナスの効果、または重要なことに効果がないという仮説の証拠を監視できます。さらに、このアプローチにより、競合する仮説の相対的な事前の妥当性と、効果がゼロでない場合の影響の予想されるサイズに関する専門知識を組み込むことができます。このベイジアン手順の広範な採用を促進するために、Rでabtestパッケージを開発しました。パッケージオプションと関連する統計結果を、架空のビジネス例と実際のデータ医療例で説明します。
BFpack: Flexible Bayes Factor Testing of Scientific Theories in R
BFpack:Rの科学理論の柔軟なベイズ因子検定
There have been considerable methodological developments of Bayes factors for hypothesis testing in the social and behavioral sciences, and related fields. This development is due to the flexibility of the Bayes factor for testing multiple hypotheses simultaneously, the ability to test complex hypotheses involving equality as well as order constraints on the parameters of interest, and the interpretability of the outcome as the weight of evidence provided by the data in support of competing scientific theories. The available software tools for Bayesian hypothesis testing are still limited however. In this paper we present a new R package called BFpack that contains functions for Bayes factor hypothesis testing for the many common testing problems. The software includes novel tools for (i) Bayesian exploratory testing (e.g., zero vs positive vs negative effects), (ii) Bayesian confirmatory testing (competing hypotheses with equality and/or order constraints), (iii) common statistical analyses, such as linear regression, generalized linear models, (multivariate) analysis of (co)variance, correlation analysis, and random intercept models, (iv) using default priors, and (v) while allowing data to contain missing observations that are missing at random.
ベイズ因子の仮説検定については、社会科学、行動科学、および関連分野でかなりの方法論的発展が見られました。この開発は、複数の仮説を同時にテストするためのベイズ因子の柔軟性、平等性を含む複雑な仮説をテストする能力、および関心のあるパラメーターの順序制約、および競合する科学理論を支持するデータによって提供される証拠の重みとしての結果の解釈可能性によるものです。ただし、ベイズ仮説検定に使用できるソフトウェアツールはまだ限られています。このホワイトペーパーでは、多くの一般的なテスト問題に対するベイズ因子仮説検定の関数を含むBFpackと呼ばれる新しいRパッケージを紹介します。このソフトウェアには、(i)ベイズ探索的テスト(ゼロ効果、正効果、負効果など)、(ii)ベイズ確認テスト(等式および/または順序制約を持つ競合仮説)、(iii)線形回帰、一般化線形モデル、(共)分散の(多変量)分析、相関分析、ランダム切片モデルなどの一般的な統計分析、(iv)デフォルトの事前確率の使用、(v)欠落している観測値をデータに含めるための新しいツールが含まれていますランダムに。
Applying Meta-Analytic-Predictive Priors with the R Bayesian Evidence Synthesis Tools
Rベイズ証拠合成ツールによるメタ解析予測事前確率の適用
Use of historical data in clinical trial design and analysis has shown various advantages such as reduction of number of subjects and increase of study power. The metaanalytic-predictive (MAP) approach accounts with a hierarchical model for between-trial heterogeneity in order to derive an informative prior from historical data. In this paper, we introduce the package RBesT (R Bayesian evidence synthesis tools) which implements the MAP approach with normal (known sampling standard deviation), binomial and Poisson endpoints. The hierarchical MAP model is evaluated by Markov chain Monte Carlo (MCMC). The MCMC samples representing the MAP prior are approximated with parametric mixture densities which are obtained with the expectation maximization algorithm. The parametric mixture density representation facilitates easy communication of the MAP prior and enables fast and accurate analytical procedures to evaluate properties of trial designs with informative MAP priors. The paper first introduces the framework of robust Bayesian evidence synthesis in this setting and then explains how RBesT facilitates the derivation and evaluation of an informative MAP prior from historical control data. In addition we describe how the meta-analytic framework relates to further applications including probability of success calculations.
臨床試験のデザインと分析に履歴データを使用すると、被験者数の削減や研究力の向上など、さまざまな利点が示されています。メタアナリシス予測(MAP)アプローチは、履歴データから有益な事前分布を導き出すために、試験間の不均一性の階層モデルを考慮します。本稿では、正規(既知のサンプリング標準偏差)、二項、ポアソンエンドポイントを用いたMAPアプローチを実装したパッケージRBesT(R Bayesian evidence synthesis tools)について紹介します。階層型MAPモデルは、マルコフ連鎖モンテカルロ(MCMC)によって評価されます。MAP事前分布を表すMCMCサンプルは、期待値最大化アルゴリズムで取得されたパラメトリック混合密度で近似されます。パラメトリック混合物密度表現により、MAP事前分布の伝達が容易になり、情報量の多いMAP事前分布を持つ試験デザインの特性を評価するための迅速かつ正確な分析手順が可能になります。この論文では、最初にこの設定におけるロバストなベイズ証拠合成のフレームワークを紹介し、次にRBesTが過去の制御データから情報量の多いMAPの導出と評価をどのように促進するかを説明します。さらに、メタアナリシスフレームワークが成功確率の計算など、さらなるアプリケーションとどのように関連しているかについても説明します。
JointAI: Joint Analysis and Imputation of Incomplete Data in R
JointAI:Rでの不完全データの共同分析と代入
Missing data occur in many types of studies and typically complicate the analysis. Multiple imputation, either using joint modeling or the more flexible fully conditional specification approach, are popular and work well in standard settings. In settings involving nonlinear associations or interactions, however, incompatibility of the imputation model with the analysis model is an issue often resulting in bias. Similarly, complex outcomes such as longitudinal or survival outcomes cannot be adequately handled by standard implementations. In this paper, we introduce the R package JointAI, which utilizes the Bayesian framework to perform simultaneous analysis and imputation in regression models with incomplete covariates. Using a fully Bayesian joint modeling approach it overcomes the issue of uncongeniality while retaining the attractive flexibility of fully conditional specification multiple imputation by specifying the joint distribution of analysis and imputation models as a sequence of univariate models that can be adapted to the type of variable. JointAI provides functions for Bayesian inference with generalized linear and generalized linear mixed models and extensions thereof as well as survival models and joint models for longitudinal and survival data, that take arguments analogous to the corresponding well known functions for the analysis of complete data from base R and other packages. Usage and features of JointAI are described and illustrated using various examples and the theoretical background is outlined.
欠損データは多くの種類の研究で発生し、通常は分析を複雑にします。ジョイントモデリングまたはより柔軟な完全条件付き仕様アプローチを使用した多重代入は一般的であり、標準設定で適切に機能します。ただし、非線形の関連付けや交互作用を含む設定では、代入モデルと解析モデルの非互換性が問題となり、多くの場合、バイアスが発生します。同様に、縦断的または生存的な結果などの複雑な結果は、標準的な実装では適切に処理できません。本稿では、ベイズフレームワークを利用して、不完全共変量を持つ回帰モデルで分析と代入を同時実行するRパッケージJointAIについて紹介します。完全なベイズ結合モデリングアプローチを使用して、分析モデルと代入モデルの結合分布を変数のタイプに適応できる単変量モデルのシーケンスとして指定することにより、完全条件付き仕様の多重代入の魅力的な柔軟性を維持しながら、不調和の問題を克服します。JointAIは、一般化線形モデルと一般化線形混合モデルとその拡張によるベイズ推論の関数、および縦断的および生存データの生存モデルとジョイントモデルを提供し、ベースRおよびその他のパッケージからの完全なデータを分析するための対応する既知の関数に類似した引数を取ります。JointAIの使用法と機能について、さまざまな例を使用して説明および説明し、理論的背景を概説します。
BayesCTDesign: An R Package for Bayesian Trial Design Using Historical Control Data
BayesCTDesign:履歴制御データを使用したベイジアン試行デザインのRパッケージ
This article introduces the R package BayesCTDesign for two-arm randomized Bayesian trial design using historical control data when available, and simple two-arm randomized Bayesian trial design when historical control data is not available. The package BayesCTDesign, which is available from the Comprehensive R Archive Network, has two simulation functions, historic_sim() and simple_sim() for studying trial characteristics under user-defined scenarios, and two methods print() and plot() for displaying summaries of the simulated trial characteristics. The package BayesCTDesign works with two-arm trials with equal sample sizes per arm. The package BayesCTDesign allows a user to study Gaussian, Poisson, Bernoulli, Weibull, lognormal, and piecewise exponential outcomes. Power for two-sided hypothesis tests at a user-defined α is estimated via simulation using a test within each simulation replication that involves comparing a 95% credible interval for the outcome specific treatment effect measure to the null case value. If the 95% credible interval excludes the null case value, then the null hypothesis is rejected, else the null hypothesis is accepted. In the article, the idea of including historical control data in a Bayesian analysis is reviewed, the estimation process of BayesCTDesign is explained, and the user interface is described. Finally, the BayesCTDesign is illustrated via several examples.
この記事では、履歴制御データを使用した2アーム無作為化ベイジアン試行デザイン(使用可能な場合)と、履歴制御データが利用できない場合の単純な2アーム無作為化ベイジアン試行デザイン用のRパッケージBayesCTDesignについて説明します。Comprehensive R Archive Networkから入手できるパッケージBayesCTDesignには、ユーザー定義のシナリオで試行特性を調査するためのhistoric_sim()とsimple_sim()の2つのシミュレーション関数と、シミュレートされた試行特性の概要を表示するためのprint()とplot()の2つのメソッドがあります。パッケージBayesCTDesignは、アームあたりのサンプルサイズが等しい2アーム試験で機能します。パッケージBayesCTDesignを使用すると、ユーザーはガウス、ポアソン、ベルヌーイ、ワイブル、対数正規、および区分指数結果を研究できます。ユーザー定義のαでの両側仮説検定の検出力は、結果固有の治療効果測定の95%信頼区間を帰無ケース値と比較する各シミュレーション複製内のテストを使用して、シミュレーションによって推定されます。95%信頼区間が帰無性ケース値を除外する場合、帰無仮説は棄却され、そうでない場合は帰無仮説が受け入れられます。この記事では、ベイズ解析に過去の制御データを含めるという考え方をレビューし、BayesCTDesignの推定プロセスについて説明し、ユーザーインターフェースについて説明します。最後に、BayesCTDesignをいくつかの例で示します。