Journal of Statistical Software Volume 112に記載されている内容を一覧にまとめ、機械翻訳を交えて日本語化し掲載します。

記事

gptools: Scalable Gaussian Process Inference with Stan

gptools:スタンによるスケーラブルガウス過程推論

Gaussian processes (GPs) are sophisticated distributions to model functional data. Whilst theoretically appealing, they are computationally cumbersome except for small datasets. We implement two methods for scaling GP inference in Stan: First, a general sparse approximation using a directed acyclic dependency graph; second, a fast, exact method for regularly spaced data modeled by GPs with stationary kernels using the fast Fourier transform. Based on benchmark experiments, we offer guidance for practitioners to decide between different methods and parameterizations. We consider two real-world examples to illustrate the package. The implementation follows Stan’s design and exposes performant inference through a familiar interface. Full posterior inference for ten thousand data points is feasible on a laptop in less than 20 seconds. Details on how to get started using the popular interfaces cmdstanpy for Python and cmdstanr for R are provided.

ガウス過程(GP)は、機能データをモデル化するための高度な分布です。理論的には魅力的ですが、小規模なデータセットを除いて、計算上の負担が大きいです。私たちは、Stan内でのGP推論のスケーリングのために2つの方法を実装しました。まず、指向された非循環依存グラフを用いた一般的なスパース近似です。次に、定常カーネルを持つGPでモデル化された均等に配置されたデータのための高速で正確な方法です。ベンチマーク実験に基づき、異なる方法とパラメータ化の選択に関して実務者向けのガイダンスを提供します。パッケージを示すために、2つの実世界の例を考慮します。実装はStanの設計に従い、親しみやすいインターフェースを通じて高性能な推論を提供します。1万のデータポイントに対する完全な事後推論は、ラップトップで20秒未満で実行可能です。Python用の人気インターフェースcmdstanpyおよびR用のcmdstanrの使用を開始する方法についての詳細も提供します。

RESI: An R Package for Robust Effect Sizes

RESI: 堅牢な効果量のためのRパッケージ

Effect size indices are useful parameters that quantify the strength of association and are unaffected by sample size. There are many available effect size parameters and estimators, but it is difficult to compare effect sizes across studies as most are defined for a specific type of population parameter. We recently introduced a new robust effect size index (RESI) and confidence interval, which is advantageous because it is not model-specific. Here we present the RESI R package, which makes it easy to report the RESI and its confidence interval for many different model classes, with a consistent interpretation across parameters and model types. The package produces coefficient, ANOVA tables, and overall Wald tests for model inputs, appending the RESI estimate and confidence interval to each. The package also includes functions for visualization and conversions to and from other effect size measures. For illustration, we analyze and interpret three datasets using different model types.

効果量指標は関連の強さを定量化する有用なパラメータであり、サンプルサイズの影響を受けません。多くの効果量パラメータと推定量が利用可能ですが、ほとんどが特定のタイプの母集団パラメータに対して定義されているため、研究間で効果量を比較するのは難しいです。最近、モデルに特化しないため有利な新しい堅牢な効果量指標(RESI)と信頼区間を導入しました。ここでは、さまざまなモデルクラスのためにRESIとその信頼区間を報告するのを簡単にするRESI Rパッケージを紹介します。パラメータとモデルタイプにわたる一貫した解釈を提供します。このパッケージは、モデル入力のための係数、ANOVAテーブル、全体のウォルド検定を生成し、それぞれにRESI推定値と信頼区間を付加します。また、視覚化や他の効果量測定への変換用の関数も含まれています。例として、異なるモデルタイプを使用して三つのデータセットを分析および解釈します。

Split-Apply-Combine with Dynamic Grouping

動的グルーピングによる分割-適用-結合

Partitioning a data set by one or more of its attributes and computing an aggregate for each part is one of the most common operations in data analyses. There are use cases where the partitioning is determined dynamically by collapsing smaller subsets into larger ones, to ensure sufficient support for the computed aggregate. These use cases are not supported by software implementing split-apply-combine types of operations. This paper presents the R package accumulate that offers convenient interfaces for defining grouped aggregation where the grouping itself is dynamically determined, based on user-defined conditions on subsets, and a user-defined subset collapsing scheme. The formal underlying algorithm is described and analyzed as well.

データセットをその属性の1つ以上でパーティション分割し、各部分の集計を計算することは、データ分析における最も一般的な操作の1つです。小さなサブセットを大きなものに統合することによって動的にパーティション分割が決定される使用例があり、計算された集計のために十分なサポートを確保します。これらの使用例は、分割・適用・結合型の操作を実装するソフトウェアではサポートされていません。本論文では、グループ化そのものがサブセットのユーザー定義条件に基づいて動的に決定されるグループ化集計の定義のための便利なインターフェースを提供するRパッケージaccumulateを紹介します。基となる公式的なアルゴリズムも説明され、分析されています。

Learning Permutation Symmetry of a Gaussian Vector with gips in R

Rでギプスを使ったガウスベクトルの置換対称性の学習

The study of hidden structures in data presents challenges in modern statistics and machine learning. We introduce the gips package in R, which identifies permutation subgroup symmetries in Gaussian vectors. gips serves two main purposes: Exploratory analysis in discovering hidden permutation symmetries and estimating the covariance matrix under permutation symmetry. It is competitive to canonical methods in dimensionality reduction while providing a new interpretation of the results. gips implements a novel Bayesian model selection procedure within Gaussian vectors invariant under the permutation subgroup introduced in Graczyk, Ishi, Kołodziejek, and Massam (2022b, The Annals of Statistics).

データにおける隠れた構造の研究は、現代の統計学や機械学習において課題を呈します。私たちは、ガウスベクトルにおける置換部分群対称性を特定するRのgipsパッケージを紹介します。gipsは2つの主な目的を持っています:隠れた置換対称性を発見するための探索的分析と、置換対称性の下での共分散行列の推定。次元削減において従来の方法と競争力があり、結果の新しい解釈を提供します。gipsは、Graczyk、Ishi、Kołodziejek、およびMassam(2022b、統計年報)で導入された置換部分群の下で不変のガウスベクトル内の新しいベイズモデル選択手続きを実装しています。

pyrichlet: A Python Package for Density Estimation and Clustering Using Gaussian Mixture Models

pyrichlet:ガウス混合モデルを使用した密度推定とクラスタリングのためのPythonパッケージ

Bayesian nonparametric models have proven to be successful tools for clustering and density estimation. While there exists a nourished ecosystem of implementations in R, for Python there are only a few. Here we develop a Python package called pyrichlet, for Bayesian nonparametric density estimation and clustering using various state-of-the-art Gaussian mixture models that generalize the well established Dirichlet process mixture, many of which are fairly new. Implementation is performed using Markov chain Monte Carlo techniques as well as variational Bayes methods. This article contains a detailed description of pyrichlet and examples for its usage with a real dataset.

ベイズ非パラメトリックモデルは、クラスタリングと密度推定に成功したツールであることが証明されています。Rには実装の豊かなエコシステムが存在する一方で、Pythonにはいくつかのみがあります。ここでは、確立されたディリクレ過程混合に一般化されたさまざまな最先端のガウス混合モデルを使用したベイズ非パラメトリック密度推定とクラスタリングのためのPythonパッケージであるpyrichletを開発しました。その実装は、マルコフ連鎖モンテカルロ技術や変分ベイズ法を使用して行われます。この記事では、pyrichletの詳細な説明と、実際のデータセットを使用した例が含まれています。

BayesMix: Bayesian Mixture Models in C++

BayesMix:C++におけるベイズ混合モデル

We describe BayesMix, a C++ library for MCMC posterior simulation for general Bayesian mixture models. The goal of BayesMix is to provide a self-contained ecosystem to perform inference for mixture models to computer scientists, statisticians and practitioners. The key idea of this library is extensibility, as we wish the users to easily adapt our software to their specific Bayesian mixture models. In addition to the several models and MCMC algorithms for posterior inference included in the library, new users with little familiarity on mixture models and the related MCMC algorithms can extend our library with minimal coding effort. Our library is computationally very efficient when compared to competitor software. Examples show that the typical code runtimes are from two to 25 times faster than competitors for data dimension from one to ten. We also provide Python (bayesmixpy) and R (bayesmixr) interfaces. Our library is publicly available on GitHub at https://github.com/bayesmix-dev/bayesmix/.

BayesMixについて説明します。これは一般的なベイズ混合モデルのためのMCMC後方シミュレーション用のC++ライブラリです。BayesMixの目的は、コンピュータサイエンティスト、統計学者、実務者に対して混合モデルの推論を実行するための自己完結したエコシステムを提供することです。このライブラリの主なアイデアは拡張性であり、ユーザーが特定のベイズ混合モデルにソフトウェアを簡単に適応できるようにしたいと考えています。ライブラリに含まれる後方推論のためのいくつかのモデルとMCMCアルゴリズムに加えて、混合モデルや関連するMCMCアルゴリズムにあまり精通していない新しいユーザーでも、最小限のコーディング努力でライブラリを拡張できます。当社のライブラリは、競合ソフトウェアと比較すると計算的に非常に効率的です。例によれば、典型的なコードの実行時間は、データ次元が1から10の場合、競合よりも2倍から25倍速いことが示されています。また、Python(bayesmixpy)およびR(bayesmixr)インターフェースも提供しています。当社のライブラリはGitHubで公開されており、https://github.com/bayesmix-dev/bayesmix/から入手できます。

Journal of Statistical Software: Volume 112の記事一覧