Journal of Statistical Software Volume 110に記載されている内容を一覧にまとめ、機械翻訳を交えて日本語化し掲載します。

記事

anomaly: Detection of Anomalous Structure in Time Series Data

異常:時系列データにおける異常構造の検出

One of the contemporary challenges in anomaly detection is the ability to detect, and differentiate between, both point and collective anomalies within a data sequence or time series. The anomaly package has been developed to provide users with a choice of anomaly detection methods and, in particular, provides an implementation of the recently proposed collective and point anomaly family of anomaly detection algorithms. This article describes the methods implemented whilst also highlighting their application to simulated data as well as real data examples contained in the package.

異常検出における現代の課題の1つは、データ シーケンスまたは時系列内のポイント異常と集合異常の両方を検出し、区別する能力です。異常パッケージは、ユーザーに異常検出方法の選択肢を提供するために開発されており、特に、最近提案された異常検出アルゴリズムの集合的およびポイント異常ファミリの実装を提供します。この記事では、実装されたメソッドについて説明しながら、シミュレーション データへの適用と、パッケージに含まれる実際のデータの例にも焦点を当てます。

An Extendable Python Implementation of Robust Optimization Monte Carlo

ロバスト最適化モンテカルロの拡張可能なPython実装

Performing inference in statistical models with an intractable likelihood is challenging, therefore, most likelihood-free inference (LFI) methods encounter accuracy and efficiency limitations. In this paper, we present the implementation of the LFI method robust optimization Monte Carlo (ROMC) in the Python package elfi. ROMC is a novel and efficient (highly-parallelizable) LFI framework that provides accurate weighted samples from the posterior. Our implementation can be used in two ways. First, a scientist may use it as an out-of-the-box LFI algorithm; we provide an easy-to-use API harmonized with the principles of elfi, enabling effortless comparisons with the rest of the methods included in the package. Additionally, we have carefully split ROMC into isolated components for supporting extensibility. A researcher may experiment with novel method(s) for solving part(s) of ROMC without reimplementing everything from scratch. In both scenarios, the ROMC parts can run in a fully-parallelized manner, exploiting all CPU cores. We also provide helpful functionalities for (i) inspecting the inference process and (ii) evaluating the obtained samples. Finally, we test the robustness of our implementation on some typical LFI examples.

手に負えない尤度を持つ統計モデルで推論を実行することは困難であるため、ほとんどの尤度フリー推論(LFI)法では精度と効率の限界に直面します。この論文では、PythonパッケージelfiでのLFI手法のロバスト最適化モンテカルロ(ROMC)の実装を紹介します。ROMC は、後部から正確な重み付けサンプルを提供する、新しく効率的な (高度に並列化可能な) LFI フレームワークです。私たちの実装は2つの方法で使用できます。まず、科学者はそれをすぐに使えるLFIアルゴリズムとして使用できます。elfiの原則と調和した使いやすいAPIを提供し、パッケージに含まれる他のメソッドと簡単に比較できるようにします。さらに、拡張性をサポートするために、ROMCを分離されたコンポーネントに慎重に分割しました。研究者は、すべてを最初から再実装することなく、ROMCの一部を解くための新しい方法を試すことができます。どちらのシナリオでも、ROMC パーツは、すべての CPU コアを利用して、完全に並列化された方法で実行できます。また、(i)推論プロセスの検査、および(ii)取得したサンプルの評価に役立つ機能も提供しています。最後に、いくつかの一般的なLFIの例で実装の堅牢性をテストします。

makemyprior: Intuitive Construction of Joint Priors for Variance Parameters in R

makemyprior: Rの分散パラメータに対するジョイント事前確率の直感的な構築

Priors allow us to robustify inference and to incorporate expert knowledge in Bayesian hierarchical models. This is particularly important when there are random effects that are hard to identify based on observed data. The challenge lies in understanding and controlling the joint influence of the priors for the variance parameters, and makemyprior is an R package that guides the formulation of joint prior distributions for variances. A joint prior distribution is constructed based on a hierarchical decomposition of the total variance in the model along a tree, and takes the entire model structure into account. Users input their prior beliefs or express ignorance at each level of the tree. Prior beliefs can be general ideas about reasonable ranges of variance values and need not be detailed expert knowledge. The constructed priors lead to robust inference and guarantee proper posteriors. A graphical user interface facilitates construction and assessment of different choices of priors through visualization of the tree and joint prior. The package aims to expand the toolbox of applied researchers and make priors an active component in their Bayesian workflow.

事前確率により、推論をロバスト化し、ベイズ階層モデルに専門知識を組み込むことができます。これは、観測データに基づいて特定するのが難しい変量効果がある場合に特に重要です。課題は、分散パラメーターに対する事前確率の同時影響を理解して制御することにあり、makemypriorは分散の同時事前分布の定式化をガイドする R パッケージです。同時事前分布は、ツリーに沿ったモデル内の全分散の階層的分解に基づいて構築され、モデル構造全体を考慮に入れます。ユーザーは、ツリーの各レベルで以前の信念を入力するか、無知を表現します。事前の信念は、分散値の合理的な範囲に関する一般的な考えである可能性があり、詳細な専門知識である必要はありません。構築された事前確率は、堅牢な推論につながり、適切な事後分布を保証します。グラフィカルユーザーインターフェースは、ツリーとジョイント事前確率の視覚化を通じて、事前確率のさまざまな選択肢の構築と評価を容易にします。このパッケージは、応用研究者のツールボックスを拡大し、事前確率をベイジアンワークフローのアクティブなコンポーネントにすることを目的としています。

bayesnec: An R Package for Concentration-Response Modeling and Estimation of Toxicity Metrics

bayesnec:濃度反応モデリングと毒性指標の推定のためのRパッケージ

The bayesnec package has been developed for R to fit concentration (dose)-response curves (CR) to toxicity data for the purpose of deriving no-effect-concentration (NEC), no-significant-effect-concentration (NSEC), and effect-concentration (of specified percentage “x”, ECx) thresholds from non-linear models fitted using Bayesian Hamiltonian Monte Carlo (HMC) via R packages brms and rstan or cmdstanr. In bayesnec it is possible to fit a single model, custom model-set, specific model-set or all of the available models. When multiple models are specified, the bnec() function returns a model weighted average estimate of predicted posterior values. A range of support functions and methods is also included to work with the returned single, or multi-model objects that allow extraction of raw, or model averaged predicted, NEC, NSEC and ECx values and to interrogate the fitted model or model-set. By combining Bayesian methods with model averaging, bayesnec provides a single estimate of toxicity and associated uncertainty that can be directly integrated into risk assessment frameworks.

bayesnecパッケージは、Rパッケージbrmsおよびrstanまたはcmdstanrを介してベイジアンハミルトニアンモンテカルロ(HMC)を使用して適合した非線形モデルから、無影響濃度(NEC)、無有意効果濃度(NSEC)、および効果濃度(指定されたパーセンテージ「x」、ECx)の閾値を導出する目的で、Rが濃度(用量)-反応曲線(CR)を毒性データに適合させるために開発されました。bayesnecでは、単一のモデル、カスタムモデルセット、特定のモデルセット、または使用可能なすべてのモデルを適合させることができます。複数のモデルが指定されている場合、bnec()関数は、予測された事後値のモデル加重平均推定値を返します。また、返された単一またはマルチモデルオブジェクトを操作するためのさまざまなサポート関数とメソッドも含まれており、生の予測値またはモデル平均予測のNEC、NSEC、およびECx値の抽出を可能にし、適合モデルまたはモデルセットを問い合わせることができます。ベイズ法とモデル平均化を組み合わせることで、ベイズネックは、リスク評価フレームワークに直接統合できる毒性と関連する不確実性の単一の推定値を提供します。

sparsegl: An R Package for Estimating Sparse Group Lasso

sparsegl: スパース・グループ・ラッソを推定するためのRパッケージ

The sparse group lasso is a high-dimensional regression technique that is useful for problems whose predictors have a naturally grouped structure and where sparsity is encouraged at both the group and individual predictor level. In this paper we discuss a new R package for computing such regularized models. The intention is to provide highly optimized solution routines enabling analysis of very large datasets, especially in the context of sparse design matrices.

スパース・グループ・ラッソは、予測子が自然にグループ化された構造を持ち、グループ予測子レベルと個々の予測子レベルの両方でスパース性が推奨される問題に役立つ高次元回帰手法です。このホワイトペーパーでは、このような正則化されたモデルを計算するための新しいRパッケージについて説明します。その意図は、特にスパース設計行列のコンテキストで、非常に大規模なデータセットの解析を可能にする高度に最適化された解ルーチンを提供することです。

cubble: An R Package for Organizing and Wrangling Multivariate Spatio-Temporal Data

cubble: 多変量時空間データを整理し、ラングリングするためのRパッケージ

Multivariate spatio-temporal data refers to multiple measurements taken across space and time. For many analyses, spatial and time components can be separately studied: for example, to explore the temporal trend of one variable for a single spatial location, or to model the spatial distribution of one variable at a given time. However for some studies, it is important to analyze different aspects of the spatio-temporal data simultaneously, for instance, temporal trends of multiple variables across locations. In order to facilitate the study of different portions or combinations of spatio-temporal data, we introduce a new class, cubble, with a suite of functions enabling easy slicing and dicing on different spatio-temporal components. The proposed cubble class ensures that all the components of the data are easy to access and manipulate while providing flexibility for data analysis. In addition, the cubble package facilitates visual and numerical explorations of the data while easing data wrangling and modelling. The cubble class and the tools implemented in the package are illustrated with examples from climate data analysis.

多変量時空間データとは、空間と時間にわたって行われる複数の測定値を指します。多くの解析では、空間コンポーネントと時間コンポーネントを別々に調査できます。たとえば、1 つの空間位置に対する 1 つの変数の時間的傾向を調査したり、特定の時間における 1 つの変数の空間分布をモデル化したりします。ただし、一部の研究では、場所全体の複数の変数の時間的傾向など、時空間データのさまざまな側面を同時に分析することが重要です。時空間データのさまざまな部分または組み合わせの研究を容易にするために、さまざまな時空間コンポーネントを簡単にスライスおよびダイシングできる一連の機能を備えた新しいクラス、cubbleを導入します。提案されたキューブ クラスにより、データのすべてのコンポーネントへのアクセスと操作が容易になり、データ分析の柔軟性が提供されます。さらに、Cubbleパッケージは、データの視覚的および数値的な探索を容易にし、データラングリングとモデリングを容易にします。パッケージに実装されている cubbleクラスとツールを、気候データ解析の例で示しています。

Journal of Statistical Software: Volume 110の記事一覧