Journal of Statistical Software Volume 111に記載されている内容を一覧にまとめ、機械翻訳を交えて日本語化し掲載します。

記事

jti and sparta: Time and Space Efficient Packages for Model-Based Prediction in Large Bayesian Networks
JTIとSparta:大規模ベイジアンネットワークにおけるモデルベース予測のための時間とスペース効率の良いパッケージ

A Bayesian network is a multivariate (potentially very high dimensional) probabilistic model formed by combining lower-dimensional components. In Bayesian networks, the computation of conditional probabilities is fundamental for model-based predictions. This is usually done based on message passing algorithms that utilize conditional independence structures. In this paper, we deal with a specific message passing algorithm that exploits a second structure called a junction tree and hence is known as the junction tree algorithm (JTA). In Bayesian networks for discrete variables with finite state spaces, there is a fundamental problem in high dimensions: A discrete distribution is represented by a table of values, and in high dimensions, such tables can become prohibitively large. In JTA, such tables must be multiplied which can lead to even larger tables. The jti package meets this challenge by using the package sparta by implementing methods that efficiently handle multiplication and marginalization of sparse tables through JTA. The two packages are written in the R programming language and are freely available from the Comprehensive R Archive Network.
ベイジアン ネットワークは、低次元のコンポーネントを組み合わせて形成される多変量 (潜在的に非常に高次元) 確率モデルです。ベイジアン ネットワークでは、条件付き確率の計算はモデル ベースの予測の基本です。これは通常、条件付き独立構造を利用するメッセージ パッシング アルゴリズムに基づいて行われます。この論文では、ジャンクション ツリーと呼ばれる 2 番目の構造を利用する特定のメッセージ パッシング アルゴリズムを取り上げます。このアルゴリズムは、ジャンクション ツリー アルゴリズム (JTA) として知られています。有限状態空間を持つ離散変数のベイジアン ネットワークでは、高次元で基本的な問題が発生します。離散分布は値のテーブルで表されますが、高次元では、このようなテーブルが法外に大きくなる可能性があります。JTA では、このようなテーブルを乗算する必要があり、テーブルがさらに大きくなる可能性があります。jti パッケージは、パッケージ sparta を使用して、JTA を通じてスパース テーブルの乗算とマージナル化を効率的に処理するメソッドを実装することで、この課題に対応しています。2 つのパッケージは R プログラミング言語で記述されており、Comprehensive R Archive Network から無料で入手できます。

BEKKs: An R Package for Estimation of Conditional Volatility of Multivariate Time Series
BEKKs: 多変量時系列の条件付きボラティリティを推定するためのRパッケージ

We describe the R package BEKKs, which implements the estimation and diagnostic analysis of a prominent family of multivariate generalized autoregressive conditionally heteroskedastic (MGARCH) processes, the so-called BEKK models. Unlike existing software packages, we make use of analytical derivatives implemented in efficient C++ code for nonlinear log-likelihood optimization. This allows fast parameter estimation even in higher model dimensions N > 3. The baseline BEKK model is complemented with an asymmetric parameterization that allows for a flexible modeling of conditional (co)variances. Furthermore, we provide the user with the simplified scalar and diagonal BEKK models to deal with high dimensionality of heteroskedastic time series. The package is designed in an object-oriented way featuring a comprehensive toolbox of methods to investigate and interpret, for instance, volatility impulse response functions, risk estimation and forecasting (VaR) and a backtesting algorithm to compare the forecasting performance of alternative BEKK models. For illustrative purposes, we analyze a bivariate ETF return series (S&P, US treasury bonds) and a four-dimensional system comprising, in addition, a gold ETF and changes of a log oil price by means of the suggested package. We find that the BEKKs package is more than 100 times faster for time series systems of dimension N > 3 than other existing packages.
我々は、多変量一般化自己回帰条件付き異分散 (MGARCH) プロセスの代表的なファミリー、いわゆる BEKK モデルの推定と診断分析を実装する R パッケージ BEKKs について説明します。既存のソフトウェア パッケージとは異なり、我々は非線形対数尤度最適化のために効率的な C++ コードで実装された分析導関数を使用します。これにより、N > 3 の高次元モデルでも高速なパラメータ推定が可能になります。ベースライン BEKK モデルは、条件付き (共) 分散の柔軟なモデリングを可能にする非対称パラメータ化で補完されます。さらに、我々はユーザーに、異分散時系列の高次元を処理するための簡略化されたスカラーおよび対角 BEKK モデルを提供します。このパッケージはオブジェクト指向で設計されており、たとえばボラティリティ インパルス応答関数、リスク推定および予測 (VaR)、代替 BEKK モデルの予測パフォーマンスを比較するためのバックテスト アルゴリズムなどを調査および解釈するための包括的なツールボックスを備えています。説明のために、提案されたパッケージを使用して、2 変量 ETF リターン シリーズ (S&P、米国債) と、金 ETF および対数原油価格の変化を含む 4 次元システムを分析します。BEKKs パッケージは、次元 N > 3 の時系列システムの場合、他の既存のパッケージよりも 100 倍以上高速であることがわかりました。

Birth-and-Death Processes in Python: The BirDePy Package
Pythonでの誕生と死のプロセス: BirDePyパッケージ

Birth-and-death processes (BDPs) form a class of continuous-time Markov chains that are particularly suited to describing the changes in the size of a population over time. Population-size-dependent BDPs (PSDBDPs) allow the rate at which a population grows to depend on the current population size. The main purpose of our new Python package BirDePy is to provide easy-to-use functions that allow the parameters of discretely-observed PSDBDPs to be estimated. The package can also be used to estimate parameters of continuously-observed PSDBDPs, simulate sample paths, approximate transition probabilities, and generate forecasts. We describe in detail several methods which have been incorporated into BirDePy to achieve each of these tasks. The usage and effectiveness of the package is demonstrated through a variety of examples of PSDBDPs, as well as case studies involving annual population count data of two endangered bird species.
出生死亡プロセス (BDP) は、連続時間マルコフ連鎖の一種で、時間の経過に伴う個体群規模の変化を記述するのに特に適しています。個体群規模依存 BDP (PSDBDP) では、個体群の成長率が現在の個体群規模に依存します。新しい Python パッケージ BirDePy の主な目的は、離散的に観測される PSDBDP のパラメータを推定できる使いやすい関数を提供することです。このパッケージは、連続的に観測される PSDBDP のパラメータを推定したり、サンプル パスをシミュレートしたり、遷移確率を概算したり、予測を生成したりするためにも使用できます。これらの各タスクを達成するために BirDePy に組み込まれているいくつかの方法について詳しく説明します。パッケージの使用方法と有効性は、さまざまな PSDBDP の例や、絶滅危惧種の鳥類 2 種の年間個体数データを含むケース スタディを通じて実証されています。

pyStoNED: A Python Package for Convex Regression and Frontier Estimation
pyStoNED: 凸回帰とフロンティア推定のためのPythonパッケージ

Shape-constrained nonparametric regression is a growing area in econometrics, statistics, operations research, machine learning, and related fields. In the field of productivity and efficiency analysis, recent developments in multivariate convex regression and related techniques such as convex quantile regression and convex expectile regression have bridged the long-standing gap between the conventional deterministic-nonparametric and stochastic-parametric methods. Unfortunately, the heavy computational burden and the lack of a powerful, reliable, and fully open-access computational package have slowed down the diffusion of these advanced estimation techniques to the empirical practice. The purpose of the Python package pyStoNED is to address this challenge by providing a freely available and user-friendly tool for multivariate convex regression, convex quantile regression, convex expectile regression, isotonic regression, stochastic nonparametric envelopment of data, and related methods. This paper presents a tutorial of the pyStoNED package and illustrates its application, focusing on estimating frontier cost and production functions.
形状制約付きノンパラメトリック回帰は、計量経済学、統計学、オペレーションズ リサーチ、機械学習、および関連分野で成長している分野です。生産性と効率性の分析の分野では、多変量凸回帰と、凸分位回帰や凸期待値回帰などの関連手法の最近の開発により、従来の決定論的ノンパラメトリック法と確率的パラメトリック法の間の長年のギャップが埋められました。残念ながら、計算負荷が大きく、強力で信頼性が高く、完全にオープン アクセスの計算パッケージがないため、これらの高度な推定手法が実証的な実践に普及するペースが遅くなっています。Python パッケージ pyStoNED の目的は、多変量凸回帰、凸分位回帰、凸期待値回帰、アイソトニック回帰、データの確率的ノンパラメトリック包絡、および関連手法のための無料で利用できる使いやすいツールを提供することで、この課題に対処することです。この論文では、pyStoNED パッケージのチュートリアルを紹介し、フロンティアコストと生産関数の推定に焦点を当ててそのアプリケーションを説明します。

mlr3spatiotempcv: Spatiotemporal Resampling Methods for Machine Learning in R
mlr3spatiotempcv: Rでの機械学習のための時空間リサンプリング手法

Spatial and spatiotemporal machine-learning models require a suitable framework for their model assessment, model selection, and hyperparameter tuning, in order to avoid error estimation bias and over-fitting. This contribution provides an overview of the state-of-the-art in spatial and spatiotemporal cross-validation techniques and their implementations in R while introducing the R package mlr3spatiotempcv as an extension package of the machine-learning framework mlr3. Currently various R packages implementing different spatiotemporal partitioning strategies exist: blockCV, CAST, skmeans and sperrorest. The goal of mlr3spatiotempcv is to gather the available spatiotemporal resampling methods in R and make them available to users through a simple and common interface. This is made possible by integrating the package directly into the mlr3 machine-learning framework, which already has support for generic non-spatiotemporal resampling methods such as random partitioning. One advantage is the use of a consistent nomenclature in an overarching machine-learning toolkit instead of a varying package-specific syntax, making it easier for users to choose from a variety of spatiotemporal resampling methods. This package avoids giving recommendations which method to use in practice as this decision depends on the predictive task at hand, the autocorrelation within the data, and the spatial structure of the sampling design or geographic objects being studied.
空間および時空間機械学習モデルでは、誤差推定バイアスや過剰適合を回避するために、モデル評価、モデル選択、ハイパーパラメータ調整のための適切なフレームワークが必要です。この投稿では、機械学習フレームワーク mlr3 の拡張パッケージとして R パッケージ mlr3spatiotempcv を紹介しながら、空間および時空間クロス検証手法の最新技術と R でのその実装の概要を示します。現在、さまざまな時空間分割戦略を実装するさまざまな R パッケージが存在します: blockCV、CAST、skmeans、sperrorest。mlr3spatiotempcv の目標は、R で利用可能な時空間リサンプリング手法を収集し、シンプルで共通のインターフェイスを通じてユーザーが利用できるようにすることです。これは、ランダム分割などの一般的な非時空間リサンプリング手法をすでにサポートしている mlr3 機械学習フレームワークにパッケージを直接統合することで可能になります。 1 つの利点は、パッケージ固有のさまざまな構文ではなく、包括的な機械学習ツールキットで一貫した命名法を使用することです。これにより、ユーザーはさまざまな時空間リサンプリング方法から選択しやすくなります。このパッケージでは、実際にどの方法を使用するかについての推奨は提供されません。この決定は、手元の予測タスク、データ内の自己相関、および調査対象のサンプリング設計または地理オブジェクトの空間構造によって異なります。

Interpreting Deep Neural Networks with the Package innsight
パッケージinnsightによるディープニューラルネットワークの解釈

The R package innsight offers a general toolbox for revealing variable-wise interpretations of deep neural networks’ predictions with so-called feature attribution methods. Aside from the unified and user-friendly framework, the package stands out in three ways: It is generally the first R package implementing feature attribution methods for neural networks. Secondly, it operates independently of the deep learning library, allowing the interpretation of neural networks from any R package, including keras, torch, neuralnet, and even custom models. Despite its flexibility, innsight benefits internally from the torch package’s fast and efficient array calculations, which builds on LibTorch – PyTorch’s C++ backend – without a Python dependency. Finally, it offers a variety of visualization tools for tabular, signal, image data, or a combination of these. Additionally, the plots can be rendered interactively using the plotly package.
R パッケージ innsight は、いわゆる特徴帰属法を使用して、ディープ ニューラル ネットワークの予測の変数ごとの解釈を明らかにするための一般的なツールボックスを提供します。統一されたユーザー フレンドリなフレームワークとは別に、このパッケージは次の 3 つの点で際立っています。一般的に、ニューラル ネットワークの特徴帰属法を実装した最初の R パッケージです。2 番目に、ディープラーニング ライブラリから独立して動作し、keras、torch、neuralnet、さらにはカスタム モデルを含む任意の R パッケージからニューラル ネットワークを解釈できます。柔軟性があるにもかかわらず、innsight は、Python に依存せずに LibTorch (PyTorch の C++ バックエンド) 上に構築された torch パッケージの高速で効率的な配列計算から内部的に恩恵を受けています。最後に、表形式、信号、画像データ、またはこれらの組み合わせ用のさまざまな視覚化ツールを提供します。さらに、プロットは plotly パッケージを使用してインタラクティブにレンダリングできます。

How to Interpret Statistical Models Using marginaleffects for R and Python
RおよびPythonのmarginaleffectsを使用して統計モデルを解釈する方法

The parameters of a statistical model can sometimes be difficult to interpret substantively, especially when that model includes nonlinear components, interactions, or transformations. Analysts who fit such complex models often seek to transform raw parameter estimates into quantities that are easier for domain experts and stakeholders to understand. This article presents a simple conceptual framework to describe a vast array of such quantities of interest, which are reported under imprecise and inconsistent terminology across disciplines: predictions, marginal predictions, marginal means, marginal effects, conditional effects, slopes, contrasts, risk ratios, etc. We introduce marginaleffects, a package for R and Python which offers a simple and powerful interface to compute all of those quantities, and to conduct (non-)linear hypothesis and equivalence tests on them. marginaleffects is lightweight; extensible; it works well in combination with other R and Python packages; and it supports over 100 classes of models, including linear, generalized linear, generalized additive, mixed effects, Bayesian, and several machine learning models.
統計モデルのパラメータは、特にモデルに非線形コンポーネント、相互作用、または変換が含まれている場合、実質的に解釈するのが難しい場合があります。このような複雑なモデルを適合するアナリストは、多くの場合、生のパラメータ推定値をドメインの専門家や利害関係者が理解しやすい量に変換しようとします。この記事では、予測、限界予測、限界平均、限界効果、条件付き効果、傾き、対比、リスク比など、分野間で不正確で一貫性のない用語で報告されている、このような膨大な量の関心を表すためのシンプルな概念フレームワークを示します。ここでは、R および Python 用のパッケージである marginaleffects を紹介します。このパッケージは、これらすべての量を計算し、それらに対して (非) 線形仮説および同等性テストを実行するためのシンプルで強力なインターフェイスを提供します。marginaleffects は軽量で拡張可能であり、他の R および Python パッケージと組み合わせても適切に機能します。また、線形、一般化線形、一般化加法、混合効果、ベイズ、およびいくつかの機械学習モデルを含む 100 を超えるクラスのモデルをサポートしています。

Journal of Statistical Software: Volume 111の記事一覧