記事
cglasso: An R Package for Conditional Graphical Lasso Inference with Censored and Missing Values
cglasso:打ち切り値と欠損値を持つ条件付きグラフィカル・ラッソ推論のためのRパッケージ
Sparse graphical models have revolutionized multivariate inference. With the advent of high-dimensional multivariate data in many applied fields, these methods are able to detect a much lower-dimensional structure, often represented via a sparse conditional independence graph. There have been numerous extensions of such methods in the past decade. Many practical applications have additional covariates or suffer from missing or censored data. Despite the development of these extensions of sparse inference methods for graphical models, there have been so far no implementations for, e.g., conditional graphical models. Here we present the general-purpose package cglasso for estimating sparse conditional Gaussian graphical models with potentially missing or censored data. The method employs an efficient expectation-maximization estimation of an ℓ1 -penalized likelihood via a block-coordinate descent algorithm. The package has a user-friendly data manipulation interface. It estimates a solution path and includes various automatic selection algorithms for the two ℓ1 tuning parameters, associated with the sparse precision matrix and sparse regression coefficients, respectively. The package pays particular attention to the visualization of the results, both by means of marginal tables and figures, and of the inferred conditional independence graphs. This package provides a unique and computational efficient implementation of a conditional Gaussian graphical model that is able to deal with the additional complications of missing and censored data. As such it constitutes an important contribution for empirical scientists wishing to detect sparse structures in high-dimensional data.
スパースグラフィカルモデルは、多変量推論に革命をもたらしました。多くの応用分野での高次元多変量データの出現により、これらの方法は、多くの場合、スパースな条件付き独立グラフで表されるはるかに低次元の構造を検出できるようになりました。過去10年間に、このような方法の多くの拡張がありました。多くの実用的なアプリケーションには、追加の共変量があるか、欠落しているデータや打ち切られたデータに悩まされています。グラフィカルモデルのためのスパース推論法のこれらの拡張が開発されたにもかかわらず、これまでのところ、例えば条件付きグラフィカルモデルのための実装はありませんでした。ここでは、欠損または検閲された可能性のあるデータを持つスパース条件付きガウスグラフィカルモデルを推定するための汎用パッケージcglassoを示します。この手法では、ブロック座標降下アルゴリズムによるl1ペナルティ尤度の効率的な期待値最大化推定を採用しています。このパッケージには、ユーザーフレンドリーなデータ操作インターフェイスがあります。解のパスを推定し、スパース精度行列とスパース回帰係数にそれぞれ関連付けられた2つのl1調整パラメーターのさまざまな自動選択アルゴリズムが含まれています。このパッケージは、周辺表と図、および推論された条件付き独立グラフの両方による結果の視覚化に特に注意を払っています。このパッケージは、欠損データや検閲されたデータの追加の複雑さを処理できる条件付きガウスグラフィカルモデルのユニークで計算効率の高い実装を提供します。そのため、高次元データからスパースな構造を検出したいと考えている経験的科学者にとって重要な貢献となります。
deepregression: A Flexible Neural Network Framework for Semi-Structured Deep Distributional Regression
deepregression:半構造化深層分布回帰のための柔軟なニューラルネットワークフレームワーク
In this paper we describe the implementation of semi-structured deep distributional regression, a flexible framework to learn conditional distributions based on the combination of additive regression models and deep networks. Our implementation encompasses (1) a modular neural network building system based on the deep learning library TensorFlow for the fusion of various statistical and deep learning approaches, (2) an orthogonalization cell to allow for an interpretable combination of different subnetworks, as well as (3) pre-processing steps necessary to set up such models. The software package allows to define models in a user-friendly manner via a formula interface that is inspired by classical statistical model frameworks such as mgcv. The package’s modular design and functionality provides a unique resource for both scalable estimation of complex statistical models and the combination of approaches from deep learning and statistics. This allows for state-of-the-art predictive performance while simultaneously retaining the indispensable interpretability of classical statistical models.
この論文では、加法回帰モデルと深層ネットワークの組み合わせに基づいて条件付き分布を学習するための柔軟なフレームワークである半構造化深層分布回帰の実装について説明します。私たちの実装には、(1)さまざまな統計的アプローチと深層学習アプローチを融合するための深層学習ライブラリTensorFlowに基づくモジュール式ニューラルネットワーク構築システム、(2)異なるサブネットワークの解釈可能な組み合わせを可能にする直交セル、および(3)そのようなモデルを設定するために必要な前処理ステップが含まれます。このソフトウェアパッケージは、mgcvなどの古典的な統計モデルフレームワークに触発された式インターフェースを介して、ユーザーフレンドリーな方法でモデルを定義することができます。このパッケージのモジュール設計と機能は、複雑な統計モデルのスケーラブルな推定と、ディープラーニングと統計学からのアプローチの組み合わせの両方のための独自のリソースを提供します。これにより、最先端の予測パフォーマンスが可能になると同時に、従来の統計モデルに不可欠な解釈可能性が維持されます。
spsurvey: Spatial Sampling Design and Analysis in R
spsurvey:Rでの空間サンプリングの設計と分析
spsurvey is an R package for design-based statistical inference, with a focus on spatial data. spsurvey provides the generalized random-tessellation stratified (GRTS) algorithm to select spatially balanced samples via the grts() function. The grts() function flexibly accommodates several sampling design features, including stratification, varying inclusion probabilities, legacy (or historical) sites, minimum distances between sites, and two options for replacement sites. spsurvey also provides a suite of data analysis options, including categorical variable analysis (cat_analysis()), continuous variable analysis (cont_analysis()), relative risk analysis (relrisk_analysis()), attributable risk analysis (attrisk_analysis()), difference in risk analysis (diffrisk_analysis()), change analysis (change_analysis()), and trend analysis (trend_analysis()). In this manuscript, we first provide background for the GRTS algorithm and the analysis approaches and then show how to implement them in spsurvey. We find that the spatially balanced GRTS algorithm yields more precise parameter estimates than simple random sampling, which ignores spatial information.
spsurveyは、空間データに重点を置いたデザインベースの統計的推論のためのRパッケージです。spsurveyは、GRTS()関数を介して空間的にバランスの取れたサンプルを選択するための一般化ランダムテッセレーション層化(GRTS)アルゴリズムを提供します。grts()関数は、層別化、さまざまな包含確率、レガシー(または履歴)サイト、サイト間の最小距離、置換サイトの2つのオプションなど、いくつかのサンプリング設計機能に柔軟に対応します。SPSsurveyは、カテゴリ変数分析(cat_analysis())、連続変数分析(cont_analysis())、相対リスク分析(relrisk_analysis())、帰属リスク分析(attrisk_analysis())、リスク差分析(diffrisk_analysis())、変化分析(change_analysis())、トレンド分析(trend_analysis())など、一連のデータ分析オプションも提供します。この原稿では、まずGRTSアルゴリズムの背景と分析アプローチを提供し、次にそれらをspsurveyで実装する方法を示します。空間的にバランスの取れたGRTSアルゴリズムは、空間情報を無視する単純なランダムサンプリングよりも正確なパラメータ推定値が得られることがわかりました。
jumpdiff: A Python Library for Statistical Inference of Jump-Diffusion Processes in Observational or Experimental Data Sets
jumpdiff:観測データセットや実験データセットのジャンプ拡散過程を統計的に推論するためのPythonライブラリ
We introduce a Python library, called jumpdiff, which includes all necessary functions to assess jump-diffusion processes. This library includes functions which compute a set of non-parametric estimators of all contributions composing a jump-diffusion process, namely the drift, the diffusion, and the stochastic jump strengths. Having a set of measurements from a jump-diffusion process, jumpdiff is able to retrieve the evolution equation producing data series statistically equivalent to the series of measurements. The back-end calculations are based on second-order corrections of the conditional moments expressed from the series of Kramers-Moyal coefficients. Additionally, the library is also able to test if stochastic jump contributions are present in the dynamics underlying a set of measurements. Finally, we introduce a simple iterative method for deriving secondorder corrections of any Kramers-Moyal coefficient.
jumpdiffと呼ばれるPythonライブラリを紹介します。これには、ジャンプ拡散プロセスを評価するために必要なすべての関数が含まれています。このライブラリには、ジャンプ拡散プロセスを構成するすべての寄与、つまりドリフト、拡散、および確率的ジャンプ強度のノンパラメトリック推定量のセットを計算する関数が含まれています。jumpdiffは、ジャンプ拡散プロセスからの一連の測定値を持つことで、一連の測定値と統計的に同等のデータ系列を生成する進化方程式を取得できます。バックエンドの計算は、一連のKramers-Moyal係数から表される条件付きモーメントの2次補正に基づいています。さらに、ライブラリは、一連の測定の基礎となるダイナミクスに確率的ジャンプの寄与が存在するかどうかをテストすることもできます。最後に、任意のKramers-Moyal係数の2次補正を導出するための簡単な反復法を紹介します。
Regression Modeling for Recurrent Events Possibly with an Informative Terminal Event Using R Package reReg
RパッケージreRegを使用した情報量の多いターミナルイベントを含む可能性のある再発イベントの回帰モデリング
Recurrent event analyses have found a wide range of applications in biomedicine, public health, and engineering, among others, where study subjects may experience a sequence of event of interest during follow-up. The R package reReg offers a comprehensive collection of practical and easy-to-use tools for regression analysis of recurrent events, possibly with the presence of an informative terminal event. The regression framework is a general scalechange model which encompasses the popular Cox-type model, the accelerated rate model, and the accelerated mean model as special cases. Informative censoring is accommodated through a subject-specific frailty without any need for parametric specification. Different regression models are allowed for the recurrent event process and the terminal event. Also included are visualization and simulation tools.
反復事象解析は、生物医学、公衆衛生、工学など、研究対象が追跡中に関心のある一連の事象を経験する可能性のある分野での幅広い用途が見出されています。RパッケージreRegは、おそらく有益なターミナルイベントが存在する状態で、再発イベントの回帰分析のための実用的で使いやすいツールの包括的なコレクションを提供します。回帰フレームワークは、一般的なCox型モデル、加速レート モデル、および加速平均モデルを特殊なケースとして包含する一般的なスケール変化モデルです。情報量の多い打ち切りは、パラメトリック仕様を必要とせずに、主題固有の弱点を通じて対応されます。再帰型イベント・プロセスと終了イベントでは、異なる回帰モデルを使用できます。また、視覚化ツールとシミュレーションツールも含まれています。
ergm 4: New Features for Analyzing Exponential-Family Random Graph Models
ergm 4:指数ファミリーランダムグラフモデルの解析新機能
The ergm package supports the statistical analysis and simulation of network data. It anchors the statnet suite of packages for network analysis in R introduced in a special issue in Journal of Statistical Software in 2008. This article provides an overview of the new functionality in the 2021 release of ergm version 4. These include more flexible handling of nodal covariates, term operators that extend and simplify model specification, new models for networks with valued edges, improved handling of constraints on the sample space of networks, and estimation with missing edge data. We also identify the new packages in the statnet suite that extend ergm’s functionality to other network data types and structural features and the robust set of online resources that support the statnet development process and applications.
ergmパッケージは、ネットワークデータの統計分析とシミュレーションをサポートします。これは、2008年にJournal of Statistical Softwareの特別号で紹介されたRのネットワーク分析用のパッケージのstatnetスイートを支えています。この記事では、ergmバージョン4の2021リリースの新機能の概要について説明します。これには、節点共変量のより柔軟な処理、モデル仕様を拡張および簡略化する項演算子、値エッジを持つネットワークの新しいモデル、ネットワークのサンプル空間に対する制約の処理の改善、および欠落しているエッジ データによる推定が含まれます。また、ergmの機能を他のネットワーク データ タイプや構造機能に拡張するstatnetスイートの新しいパッケージ、およびstatnet開発プロセスとアプリケーションをサポートする堅牢なオンライン リソースのセットも特定します。
Expanding Tidy Data Principles to Facilitate Missing Data Exploration, Visualization and Assessment of Imputations
Tidy Data Principlesを拡張して、欠損データの探索、視覚化、補完の評価を促進
Despite the large body of research on missing value distributions and imputation, there is comparatively little literature with a focus on how to make it easy to handle, explore, and impute missing values in data. This paper addresses this gap. The new methodology builds upon tidy data principles, with the goal of integrating missing value handling as a key part of data analysis workflows. We define a new data structure, and a suite of new operations. Together, these provide a connected framework for handling, exploring, and imputing missing values. These methods are available in the R package naniar.
欠損値の分布と代入に関する研究は数多くありますが、データ内の欠損値の処理、探索、および補完を容易にする方法に焦点を当てた文献は比較的少ないです。この論文では、このギャップを解決します。この新しい方法論は、整頓されたデータの原則に基づいており、欠損値の処理をデータ分析ワークフローの主要な部分として統合することを目標としています。新しいデータ構造と一連の新しい操作を定義します。これらを組み合わせることで、欠損値を処理、探索、および補完するための接続されたフレームワークが提供されます。これらの方法は、Rパッケージnaniarで使用できます。
Additive Bayesian Network Modeling with the R Package abn
Rパッケージabnを使用した加法ベイジアン・ネットワーク・モデリング
The R package abn is designed to fit additive Bayesian network models to observational datasets and contains routines to score Bayesian networks based on Bayesian or information theoretic formulations of generalized linear models. It is equipped with exact search and greedy search algorithms to select the best network, and supports continuous, discrete and count data in the same model and input of prior knowledge at a structural level. The Bayesian implementation supports random effects to control for one-layer clustering. In this paper, we give an overview of the methodology and illustrate the package’s functionality using a veterinary dataset concerned with respiratory diseases in commercial swine production.
Rパッケージabnは、加法ベイジアン ネットワーク モデルを観測データセットに適合させるように設計されており、一般化線形モデルのベイジアンまたは情報理論の定式化に基づいてベイジアン ネットワークをスコアリングするルーチンが含まれています。最適なネットワークを選択するための厳密検索と貪欲な検索アルゴリズムを備えており、同じモデル内の連続データ、離散データ、カウントデータ、および構造レベルでの事前知識の入力をサポートします。ベイズ実装では、1層クラスタリングを制御するための変量効果がサポートされています。この論文では、商業豚生産における呼吸器疾患に関する獣医データセットを使用して、方法論の概要を説明し、パッケージの機能を説明します。
Bayesian Structure Learning and Sampling of Bayesian Networks with the R Package BiDAG
RパッケージBiDAGによるベイジアンネットワークのベイジアン構造学習とサンプリング
The R package BiDAG implements Markov chain Monte Carlo (MCMC) methods for structure learning and sampling of Bayesian networks. The package includes tools to search for a maximum a posteriori (MAP) graph and to sample graphs from the posterior distribution given the data. A new hybrid approach to structure learning enables inference in large graphs. In the first step, we define a reduced search space by means of the PC algorithm or based on prior knowledge. In the second step, an iterative order MCMC scheme proceeds to optimize the restricted search space and estimate the MAP graph. Sampling from the posterior distribution is implemented using either order or partition MCMC. The models and algorithms can handle both discrete and continuous data. The BiDAG package also provides an implementation of MCMC schemes for structure learning and sampling of dynamic Bayesian networks.
RパッケージBiDAGは、ベイジアンネットワークの構造学習とサンプリングのためにマルコフ連鎖モンテカルロ法(MCMC)を実装しています。このパッケージには、最大事後分布(MAP)グラフを検索するツールと、データが与えられた事後分布からグラフをサンプリングするツールが含まれています。構造学習への新しいハイブリッドアプローチにより、大きなグラフでの推論が可能になります。最初のステップでは、PCアルゴリズムを使用するか、事前知識に基づいて、縮小された探索空間を定義します。2番目のステップでは、反復順序MCMCスキームが進行し、制限された探索空間を最適化し、MAPグラフを推定します。事後分布からのサンプリングは、次数または分割MCMCを使用して実装されます。モデルとアルゴリズムは、離散データと連続データの両方を処理できます。BiDAGパッケージは、動的ベイジアンネットワークの構造学習とサンプリングのためのMCMCスキームの実装も提供します。
logitr: Fast Estimation of Multinomial and Mixed Logit Models with Preference Space and Willingness-to-Pay Space Utility Parameterizations
logitr:優先空間とWillingness-to-Pay Spaceユーティリティパラメータ化による多項ロジットモデルと混合ロジットモデルの高速推定
This paper introduces the logitr R package for fast maximum likelihood estimation of multinomial logit and mixed logit models with unobserved heterogeneity across individuals, which is modeled by allowing parameters to vary randomly over individuals according to a chosen distribution. The package is faster than other similar packages such as mlogit, gmnl, mixl, and apollo, and it supports utility models specified with “preference space” or “willingness-to-pay (WTP) space” parameterizations, allowing for the direct estimation of marginal WTP. The typical procedure of computing WTP post-estimation using a preference space model can lead to unreasonable distributions of WTP across the population in mixed logit models. The paper provides a discussion of some of the implications of each utility parameterization for WTP estimates. It also highlights some of the design features that enable logitr’s performant estimation speed and includes a benchmarking exercise with similar packages. Finally, the paper highlights additional features that are designed specifically for WTP space models, including a consistent user interface for specifying models in either space and a parallelized multi-start optimization loop, which is particularly useful for searching the solution space for different local minima when estimating models with non-convex log-likelihood functions.
この論文では、選択した分布に従ってパラメータが個人間でランダムに変化するようにモデル化された、個人間で観察されていない不均一性を持つ多項ロジットモデルと混合ロジットモデルの高速最尤推定のためのlogitr Rパッケージを紹介します。このパッケージは、mlogit、gmnl、mixl、apolloなどの他の同様のパッケージよりも高速で、「preference space」または「willingness-to-pay (WTP) space」パラメータ化で指定されたユーティリティモデルをサポートしているため、周辺WTPを直接推定できます。優先空間モデルを使用してWTPの事後推定を計算する一般的な手順では、混合ロジット モデルの母集団全体でWTPが不合理に分布する可能性があります。この論文では、WTP推定に対する各ユーティリティパラメータ化の影響のいくつかについて説明します。また、logitrの高性能な推定速度を可能にする設計機能の一部に焦点を当て、同様のパッケージを使用したベンチマーク演習も含まれています。最後に、この論文では、WTP空間モデル専用に設計された追加の機能、たとえば、いずれかの空間でモデルを指定するための一貫したユーザーインターフェイスや、非凸対数尤度関数を持つモデルを推定するときにさまざまな局所最小値の解空間を検索するのに特に役立つ並列化されたマルチスタート最適化ループに焦点を当てています。