Journal of Statistical Software Volume 101に記載されている内容を一覧にまとめ、機械翻訳を交えて日本語化し掲載します。

記事

The poolr Package for Combining Independent and Dependent p Values
独立p値と従属p値を組み合わせるためのpoolrパッケージ

The poolr package provides an implementation of a variety of methods for pooling (i.e., combining) p values, including Fisher’s method, Stouffer’s method, the inverse chisquare method, the binomial test, the Bonferroni method, and Tippett’s method. More importantly, the methods can be adjusted to account for dependence among the tests from which the p values have been derived assuming multivariate normality among the test statistics. All methods can be adjusted based on an estimate of the effective number of tests or by using an empirically-derived null distribution based on pseudo replicates that mimics a proper permutation test. For the Fisher, Stouffer, and inverse chi-square methods, the test statistics can also be directly generalized to account for dependence, leading to Brown’s method, Strube’s method, and the generalized inverse chi-square method. In this paper, we describe the various methods, discuss their implementation in the package, illustrate their use based on several examples, and compare the poolr package with several other packages that can be used to combine p values.
poolrパッケージは、フィッシャー法、スタウファー法、逆カイマス法、二項検定、ボンフェローニ法、ティペット法など、p値をプール(つまり、組み合わせる)するためのさまざまな方法の実装を提供します。さらに重要なことは、検定統計量の多変量正規性を仮定して、p値が導出された検定間の依存性を考慮するように方法を調整することができることです。すべての方法は、テストの有効数の推定値に基づいて、または適切な順列テストを模倣する疑似反復に基づく経験的に導出されたヌル分布を使用して調整できます。フィッシャー法、スタウファー法、および逆カイ二乗法の場合、検定統計量を直接一般化して依存性を考慮することもでき、ブラウン法、シュトルーブ法、および一般化逆カイ二乗法につながります。このホワイト ペーパーでは、さまざまな方法について説明し、パッケージでの実装について説明し、いくつかの例に基づいてその使用法を説明し、poolrパッケージをp値を組み合わせるために使用できる他のいくつかのパッケージと比較します。

lpdensity: Local Polynomial Density Estimation and Inference
lpdensity:局所多項式密度の推定と推論

Density estimation and inference methods are widely used in empirical work. When the underlying distribution has compact support, conventional kernel-based density estimators are no longer consistent near or at the boundary because of their well-known boundary bias. Alternative smoothing methods are available to handle boundary points in density estimation, but they all require additional tuning parameter choices or other typically ad hoc modifications depending on the evaluation point and/or approach considered. This article discusses the R and Stata package lpdensity implementing a novel local polynomial density estimator proposed and studied in Cattaneo, Jansson, and Ma (2020, 2022), which is boundary adaptive and involves only one tuning parameter. The methods implemented also cover local polynomial estimation of the cumulative distribution function and density derivatives. In addition to point estimation and graphical procedures, the package offers consistent variance estimators, mean squared error optimal bandwidth selection, robust bias-corrected inference, and confidence bands construction, among other features. A comparison with other density estimation packages available in R using a Monte Carlo experiment is provided.
密度推定および推論法は、実証的研究で広く使用されています。基になる分布がコンパクトにサポートされている場合、従来のカーネルベースの密度推定器は、既知の境界バイアスのために、境界の近くまたは境界で一貫性がなくなります。密度推定の境界点を処理するために、別の平滑化方法を使用できますが、それらはすべて、考慮される評価点やアプローチに応じて、追加の調整パラメーターの選択肢またはその他の通常はアドホックな変更を必要とします。この記事では、Cattaneo, Jansson, and Ma (2020, 2022)で提案および研究された、境界適応型で1つの調整パラメーターのみを含む新しい局所多項式密度推定器を実装するRおよびStataパッケージlpdensityについて説明します。実装された方法は、累積分布関数と密度導関数の局所多項式推定もカバーしています。このパッケージは、点推定とグラフィカルな手順に加えて、一貫性のある分散推定器、平均二乗誤差の最適な帯域幅選択、ロバストなバイアス補正推論、信頼バンドの構築などの機能を提供します。モンテカルロ実験を使用してRで使用可能な他の密度推定パッケージとの比較が提供されます。

Fast Kernel Smoothing in R with Applications to Projection Pursuit
Rでの高速カーネル平滑化と射影追求への応用

This paper introduces the R package FKSUM, which offers fast and exact evaluation of univariate kernel smoothers. The main kernel computations are implemented in C++, and are wrapped in simple, intuitive and versatile R functions. The fast kernel computations are based on recursive expressions involving the order statistics, which allows for exact evaluation of kernel smoothers at all sample points in log-linear time. In addition to general purpose kernel smoothing functions, the package offers purpose built and readyto-use implementations of popular kernel-type estimators. On top of these basic smoothing problems, this paper focuses on projection pursuit problems in which the projection index is based on kernel-type estimators of functionals of the projected density.
この論文では、単変量カーネルスムーザーの高速かつ正確な評価を提供するRパッケージFKSMを紹介します。メインのカーネル計算はC++で実装され、シンプルで直感的で汎用性の高いR関数にラップされています。高速カーネル計算は、順序統計を含む再帰式に基づいており、これにより、対数線形時間ですべてのサンプル ポイントでカーネル スムーザーを正確に評価できます。汎用のカーネル平滑化機能に加えて、このパッケージは、一般的なカーネル型推定器の専用に構築され、すぐに使用できる実装を提供します。これらの基本的な平滑化問題に加えて、この論文では、射影インデックスが射影密度の汎関数のカーネル型推定器に基づく射影追跡問題に焦点を当てます。

tlrmvnmvt: Computing High-Dimensional Multivariate Normal and Student-t Probabilities with Low-Rank Methods in R
tlrmvnmvt:Rの低ランク法による高次元多変量正規確率とStudent-t確率の計算

This paper introduces the usage and performance of the R package tlrmvnmvt, aimed at computing high-dimensional multivariate normal and Student-t probabilities. The package implements the tile-low-rank methods with block reordering and the separationof-variable methods with univariate reordering. The performance is compared with two other state-of-the-art R packages, namely the mvtnorm and the TruncatedNormal packages. Our package has the best scalability and is likely to be the only option in thousands of dimensions. However, for applications with high accuracy requirements, the TruncatedNormal package is more suitable. As an application example, we show that the excursion sets of a latent Gaussian random field can be computed with the tlrmvnmvt package without any model approximation and hence, the accuracy of the produced excursion sets is improved.
この論文では、高次元多変量正規確率とStudent-t確率の計算を目的としたRパッケージtlrmvnmvtの使用方法と性能を紹介します。このパッケージは、ブロックの並べ替えを行うtile-low-rankメソッドと、単変量並べ替えを行うseparationof-variableメソッドを実装します。この性能は、他の2つの最先端のRパッケージ、つまりmvtnormパッケージとTruncatedNormalパッケージと比較されます。私たちのパッケージは最高のスケーラビリティを備えており、何千もの次元で唯一のオプションになる可能性があります。ただし、高い精度が要求されるアプリケーションには、TruncatedNormalパッケージの方が適しています。応用例として、潜在ガウス確率場のエクスカーションセットは、モデル近似なしでtlrmvnmvtパッケージで計算でき、したがって、生成されたエクスカーションセットの精度が向上することを示します。

bbl: Boltzmann Bayes Learner for High-Dimensional Inference with Discrete Predictors in R
bbl:Rの離散予測子を使用した高次元推論のためのボルツマン・ベイズ学習器

Non-regression-based inferences, such as discriminant analysis, can account for the effect of predictor distributions that may be significant in big data modeling. We describe bbl, an R package for Boltzmann Bayes learning, which enables a comprehensive supervised learning of the association between a large number of categorical predictors and multi-level response variables. Its basic underlying statistical model is a collection of (fully visible) Boltzmann machines inferred for each distinct response level. The algorithm reduces to the naive Bayes learner when interaction is ignored. We illustrate example use cases for various scenarios, ranging from modeling of a relatively small set of factors with heterogeneous levels to those with hundreds or more predictors with uniform levels such as image or genomic data. We show how bbl explicitly quantifies the extra power provided by interactions via higher predictive performance of the model. In comparison to deep learning-based methods such as restricted Boltzmann machines, bbl-trained models can be interpreted directly via their bias and interaction parameters.
判別分析などの非回帰ベースの推論では、ビッグ データ モデリングで重要な予測子分布の影響を説明できます。ボルツマン・ベイズ学習のRパッケージであるbblについて述べます。これにより、多数のカテゴリ予測子とマルチレベル応答変数との関連性を包括的に教師あり学習できます。その基本的な基礎となる統計モデルは、異なる応答レベルごとに推論された(完全に見える)ボルツマンマシンのコレクションです。このアルゴリズムは、相互作用が無視されると、単純ベイズ学習器に還元されます。ここでは、異種レベルを持つ比較的小さな因子セットのモデリングから、画像データやゲノムデータなどの均一なレベルを持つ数百以上の予測因子のモデリングまで、さまざまなシナリオのユースケースの例を示しています。bblが、モデルのより高い予測パフォーマンスを介して、相互作用によって提供される追加のパワーを明示的に定量化する方法を示します。制限付きボルツマンマシンなどの深層学習ベースの手法と比較して、bblで学習されたモデルは、バイアスと相互作用のパラメータを介して直接解釈できます。

The JuliaConnectoR: A Functionally-Oriented Interface for Integrating Julia in R
JuliaConnectoR:JuliaをRに統合するための機能指向のインターフェース

Like many groups considering the new programming language Julia, we faced the challenge of accessing the algorithms that we develop in Julia from R. Therefore, we developed the R package JuliaConnectoR, available from the Comprehensive R Archive Network (CRAN), the official R package repository, and from GitHub (https://github. com/stefan-m-lenz/JuliaConnectoR), in particular for making advanced deep learning tools available. For maintainability and stability, we decided to base communication between R and Julia on the transmission control protocol, using an optimized binary format for exchanging data. Our package also specifically contains features that allow for a convenient interactive use in R. This makes it easy to develop R extensions with Julia or to simply call functionality from Julia packages in R. Interacting with Julia objects and calling Julia functions becomes user-friendly, as Julia functions and variables are made directly available as objects in the R workspace. We illustrate the further features of our package with code examples, and also discuss advantages over the two alternative packages JuliaCall and XRJulia. Finally, we demonstrate the usage of the package with a more extensive example for employing neural ordinary differential equations, a recent deep learning technique that has received much attention. This example also provides more general guidance for integrating deep learning techniques from Julia into R.
新しいプログラミング言語Juliaを検討している多くのグループと同様に、私たちはJuliaで開発するアルゴリズムにRからアクセスするという課題に直面しました。そこで、特に高度なディープラーニングツールを利用可能にするために、公式のRパッケージリポジトリであるComprehensive R Archive Network(CRAN)とGitHub(https://github.com/stefan-m-lenz/JuliaConnectoR)から入手できるRパッケージJuliaConnectoRを開発しました。保守性と安定性のために、RとJulia間の通信は伝送制御プロトコルに基づいており、データ交換に最適化されたバイナリ形式を使用することにしました。私たちのパッケージには、Rで便利にインタラクティブに使用できる機能も含まれています。これにより、Juliaを使用してR拡張機能を開発したり、RのJuliaパッケージから機能を簡単に呼び出したりすることが容易になります。Juliaオブジェクトとの対話とJulia関数の呼び出しは、Julia関数と変数がRワークスペースのオブジェクトとして直接利用可能になるため、ユーザーフレンドリーになります。パッケージのさらなる機能をコード例で説明し、JuliaCallとXRJuliaの2つの代替パッケージに対する利点についても説明します。最後に、このパッケージの使用方法を、最近注目を集めている深層学習手法であるニューラル常微分方程式を使用したより広範な例とともに示します。この例では、JuliaからRにディープ ラーニング手法を統合するためのより一般的なガイダンスも提供します。

tidypaleo: Visualizing Paleoenvironmental Archives Using ggplot2
tidypaleo:ggplot2を使用した古環境アーカイブの可視化

This paper presents the tidypaleo package for R, which enables high-quality reproducible visualizations of time-stratigraphic multivariate data that is common to several disciplines of the natural sciences. Rather than introduce new plotting functions, the tidypaleo package defines several orthogonal components of the ggplot2 package that, when combined, enable most types of stratigraphic diagrams to be created. We do so by conceptualizing multi-parameter data as a series of measurements (rows) with attributes (columns), enabling the use of the ggplot2 facet mechanism to display multi-parameter data. The orthogonal components include (1) scales that represent relative abundance and concentration values, (2) geometries that are commonly used in paleoenvironmental diagrams created elsewhere, (3) facets that correctly assign scales and sizes to panels representing multiple parameters, and (4) theme elements that enable tidypaleo to create elegant graphics. Collectively, this approach demonstrates the efficacy of a minimal ggplot2 wrapper to create domain-specific plots.
この論文では、自然科学のいくつかの分野に共通する時間層序多変量データの高品質で再現性のある視覚化を可能にするRのtidypaleoパッケージを紹介します。新しいプロット機能を導入するのではなく、tidypaleoパッケージはggplot2パッケージのいくつかの直交コンポーネントを定義し、組み合わせるとほとんどのタイプの層序図を作成できるようになります。これは、マルチパラメータデータを属性(列)を持つ一連の測定値(行)として概念化することで実現し、ggplot2ファセットメカニズムを使用してマルチパラメータデータを表示できるようにします。直交するコンポーネントには、(1)相対的な存在量と濃度の値を表すスケール、(2)他の場所で作成される古環境図で一般的に使用されるジオメトリ、(3)複数のパラメータを表すパネルにスケールとサイズを正しく割り当てるファセット、(4)tidypaleoがエレガントなグラフィックを作成できるようにするテーマ要素が含まれます。まとめると、このアプローチは、ドメイン固有のプロットを作成するための最小限のggplot2ラッパーの有効性を示しています。

Inference Tools for Markov Random Fields on Lattices: The R Package mrf2d
格子上のマルコフ確率場の推論ツール:Rパッケージmrf2d

Markov random fields on two-dimensional lattices are behind many image analysis methodologies. mrf2d provides tools for statistical inference on a class of discrete stationary Markov random field models with pairwise interaction, which includes many of the popular models such as the Potts model and texture image models. The package introduces representations of dependence structures and parameters, visualization functions and efficient (C++-based) implementations of sampling algorithms, common estimation methods and other key features of the model, providing a useful framework to implement algorithms and working with the model in general. This paper presents a description and details of the package, as well as some reproducible examples of usage.
2次元格子上のマルコフ確率場は、多くの画像解析手法の背後にあります。mrf2dは、ポッツ モデルやテクスチャ イメージ モデルなどの一般的なモデルの多くを含む、ペアワイズ相互作用を持つ離散定常マルコフ確率場モデルのクラスに対する統計的推論のためのツールを提供します。このパッケージは、依存構造とパラメータの表現、視覚化関数、サンプリングアルゴリズムの効率的な(C ++ベースの)実装、一般的な推定方法、およびモデルのその他の主要な機能を導入し、アルゴリズムを実装し、モデルを一般的に操作するための有用なフレームワークを提供します。このホワイトペーパーでは、パッケージの説明と詳細、および再現可能な使用例をいくつか紹介します。

TransModel: An R Package for Linear Transformation Model with Censored Data
TransModel:打ち切りデータを持つ線形変換モデルのRパッケージ

Linear transformation models, including the proportional hazards model and proportional odds model, under right censoring were discussed by Chen, Jin, and Ying (2002). The asymptotic variance of the estimator they proposed has a closed form and can be obtained easily by plug-in rules, which improves the computational efficiency. We develop an R package TransModel based on Chen’s approach. The detailed usage of the package is discussed, and the function is applied to the Veterans’ Administration lung cancer data.
右打ち切りの下での比例ハザードモデルと比例オッズモデルを含む線形変換モデルについては、Chen、Jin、およびYing(2002)によって議論されました。彼らが提案した推定量の漸近分散は閉形式であり、プラグインルールによって簡単に取得できるため、計算効率が向上します。Chenのアプローチに基づいてRパッケージTransModelを開発します。パッケージの詳細な使用法について説明し、その機能は退役軍人局の肺がんデータに適用されます。

Generalized Functional Pruning Optimal Partitioning (GFPOP) for Constrained Changepoint Detection in Genomic Data
ゲノムデータにおける制約付き変化点検出のための一般化機能プルーニング最適分割(GFPOP)

We describe a new algorithm and R package for peak detection in genomic data sets using constrained changepoint models. These detect changes from background to peak regions by imposing the constraint that the mean should alternately increase then decrease. An existing algorithm for this problem exists, and gives state-of-the-art accuracy results, but it is computationally expensive when the number of changes is large. We propose a dynamic programming algorithm that jointly estimates the number of peaks and their locations by minimizing a cost function which consists of a data fitting term and a penalty for each changepoint. Empirically this algorithm has a cost that is O(N log(N )) for analyzing data of length N . We also propose a sequential search algorithm that finds the best solution with K segments in O(log(K) N log(N )) time, which is much faster than the previous O(K N log(N )) algorithm. We show that our disk-based implementation in the PeakSegDisk R package can be used to quickly compute constrained optimal models with many changepoints, which are needed to analyze typical genomic data sets that have tens of millions of observations.
制約付き変化点モデルを使用して、ゲノムデータセットのピーク検出のための新しいアルゴリズムとRパッケージについて説明します。これらは、平均が交互に増加してから減少するという制約を課すことにより、バックグラウンドからピーク領域への変化を検出します。この問題に対する既存のアルゴリズムが存在し、最先端の精度の結果が得られますが、変更の数が多いと計算コストが高くなります。我々は、データ適合項と各変化点のペナルティからなるコスト関数を最小化することにより、ピークの数とその位置を共同で推定する動的計画法アルゴリズムを提案します。経験的に、このアルゴリズムには、長さNのデータを分析するためのコストO(N log(N ))があります。また、O(log(K) N log(N ))時間でKセグメントを持つ最適な解を見つける逐次探索アルゴリズムも提案します。これは、以前のO(K N log(N ))アルゴリズムよりもはるかに高速です。PeakSegDisk Rパッケージのディスクベースの実装を使用して、数千万の観測値を持つ一般的なゲノム データセットの分析に必要な、多くの変化点を持つ制約付き最適モデルを迅速に計算できることを示します。

BSL: An R Package for Efficient Parameter Estimation for Simulation-Based Models via Bayesian Synthetic Likelihood
BSL:ベイズ合成尤度によるシミュレーションベースモデルの効率的なパラメータ推定のためのRパッケージ

Bayesian synthetic likelihood (BSL; Price, Drovandi, Lee, and Nott 2018) is a popular method for estimating the parameter posterior distribution for complex statistical models and stochastic processes that possess a computationally intractable likelihood function. Instead of evaluating the likelihood, BSL approximates the likelihood of a judiciously chosen summary statistic of the data via model simulation and density estimation. Compared to alternative methods such as approximate Bayesian computation (ABC), BSL requires little tuning and requires less model simulations than ABC when the chosen summary statistic is high-dimensional. The original synthetic likelihood relies on a multivariate normal approximation of the intractable likelihood, where the mean and covariance are estimated by simulation. An extension of BSL considers replacing the sample covariance with a penalized covariance estimator to reduce the number of required model simulations. Further, a semi-parametric approach has been developed to relax the normality assumption. Finally, another extension of BSL aims to develop a more robust synthetic likelihood estimator while acknowledging there might be model misspecification. In this paper, we present the R package BSL that amalgamates the aforementioned methods and more into a single, easy-to-use and coherent piece of software. The package also includes several examples to illustrate use of the package and the utility of the methods.
ベイズ合成尤度(BSL;Price, Drovandi, Lee, and Nott 2018)は、計算難解な尤度関数を持つ複雑な統計モデルや確率過程のパラメータ事後分布を推定するための一般的な手法です。BSLは、尤度を評価する代わりに、モデルシミュレーションと密度推定を通じて、データの要約統計量を慎重に選択して尤度を近似します。近似ベイズ計算(ABC)などの代替方法と比較して、選択した要約統計量が高次元の場合、BSLはABCよりも調整がほとんど必要なく、モデル シミュレーションも少なくて済みます。元の合成尤度は、難解な尤度の多変量正規近似に依存しており、平均と共分散はシミュレーションによって推定されます。BSLの拡張では、サンプルの共分散をペナルティ付き共分散推定量に置き換えることで、必要なモデル シミュレーションの数を減らすことが検討されます。さらに、正規性の仮定を緩和するために、セミパラメトリックアプローチが開発されました。最後に、BSLの別の拡張は、モデルの誤指定がある可能性があることを認識しつつ、より堅牢な合成尤度推定量を開発することを目的としています。このホワイトペーパーでは、前述の方法などを1つの使いやすく一貫性のあるソフトウェアに統合したRパッケージBSLを紹介します。このパッケージには、パッケージの使用方法とメソッドの有用性を示すいくつかの例も含まれています。

missSBM: An R Package for Handling Missing Values in the Stochastic Block Model
missSBM:確率的ブロックモデルで欠損値を処理するためのRパッケージ

The stochastic block model is a popular probabilistic model for random graphs. It is commonly used to cluster network data by aggregating nodes that share similar connectivity patterns into blocks. When fitting a stochastic block model to a partially observed network, it is important to consider the underlying process that generates the missing values, otherwise the inference may be biased. This paper presents missSBM, an R package that fits stochastic block models when the network is partially observed, i.e., the adjacency matrix contains not only 1s or 0s encoding the presence or absence of edges, but also NAs encoding the missing information between pairs of nodes. This package implements a set of algorithms to adjust the binary stochastic block model, possibly in the presence of external covariates, by performing variational inference suitable for several observation processes. Our implementation automatically explores different block numbers to select the most relevant model according to the integrated classification likelihood criterion. The integrated classification likelihood criterion can also help determine which observation process best fits a given dataset. Finally, missSBM can be used to perform imputation of missing entries in the adjacency matrix. We illustrate the package on a network dataset consisting of interactions between political blogs sampled during the 2007 French presidential election.
確率的ブロックモデルは、ランダムグラフの一般的な確率モデルです。これは、類似した接続パターンを共有するノードをブロックに集約することにより、ネットワークデータをクラスター化するために一般的に使用されます。確率的ブロックモデルを部分的に観測されたネットワークに当てはめる場合、欠損値を生成する基礎となるプロセスを考慮することが重要です。そうしないと、推論に偏りが生じる可能性があります。この論文では、ネットワークが部分的に観測された場合、つまり隣接行列にはエッジの有無をエンコードする1または0だけでなく、ノードのペア間の欠落情報をエンコードするNAも含まれている場合に、確率的ブロックモデルに適合するRパッケージであるmissSBMを紹介します。このパッケージは、おそらく外部共変量が存在する場合に、いくつかの観測プロセスに適した変分推論を実行することにより、バイナリ確率的ブロックモデルを調整する一連のアルゴリズムを実装します。私たちの実装では、さまざまなブロック番号を自動的に探索し、統合された分類尤度基準に従って最も関連性の高いモデルを選択します。統合された分類尤度基準は、特定のデータセットに最も適合する観測プロセスを決定するのにも役立ちます。最後に、missSBMを使用して、隣接行列に欠落しているエントリの補完を実行できます。このパッケージは、2007年のフランス大統領選挙中にサンプリングされた政治ブログ間の相互作用で構成されるネットワーク データセットで示しています。

Journal of Statistical Software: Volume 101の記事一覧