Journal of Statistical Software Volume 109に記載されている内容を一覧にまとめ、機械翻訳を交えて日本語化し掲載します。

記事

bizicount: Bivariate Zero-Inflated Count Copula Regression Using R
bizicount:Rを使用した 2 変量ゼロ増量カウント・コピュラ回帰

Two common issues arise in regression modelling of bivariate count data: (i) dependence across outcomes, and (ii) excess zero counts (i.e., zero inflation). However, there are currently few options to estimate bivariate zero-inflated count regression models in R. Therefore, we present an R package, bizicount, that enables researchers to easily estimate bivariate zero-inflated count copula regression models. By using copulas to model the dependence across outcomes, researchers do not have to make assumptions about the multivariate (and zero-inflated) structure relating their count variables to one another. Instead, they are only required to make familiar assumptions about the marginal distribution of each outcome variable, which should enable wider use of our approach. Below we present our proposed estimator, detail its advantages over existing alternatives, and demonstrate the use of the corresponding functions for bivariate modeling of terrorism data from Nigeria.
二変量カウントデータの回帰モデリングでは、(i)結果間の依存性、および(ii)過剰なゼロカウント(つまり、ゼロインフレ)の2つの一般的な問題が発生します。ただし、現在、Rで2変量ゼロ増量カウント回帰モデルを推定するオプションはほとんどありません。そこで、研究者が二変量ゼロ増量カウントコピュラ回帰モデルを簡単に推定できるRパッケージbizicountを紹介します。コピュラを使用して結果間の依存関係をモデル化することにより、研究者は、カウント変数を相互に関連付ける多変量(およびゼロ膨張)構造について仮定する必要がなくなります。それどころか、各結果変数の周辺分布について馴染み深い仮定を立てるだけでよくでき、それによって私たちのアプローチをより広く使用できるようになるはずです。以下では、提案された推定量を提示し、既存の代替案に対するその利点を詳しく説明し、ナイジェリアからのテロリズムデータの二変量モデリングに対応する関数の使用を示します。

scikit-fda: A Python Package for Functional Data Analysis
scikit-fda:関数データ分析のためのPythonパッケージ

The library scikit-fda is a Python package for functional data analysis (FDA). It provides a comprehensive set of tools for representation, preprocessing, and exploratory analysis of functional data. The library is built upon and integrated in Python’s scientific ecosystem. In particular, it conforms to the scikit-learn application programming interface so as to take advantage of the functionality for machine learning provided by this package: Pipelines, model selection, and hyperparameter tuning, among others. The scikit-fda package has been released as free and open-source software under a 3-clause BSD license and is open to contributions from the FDA community. The library’s extensive documentation includes step-by-step tutorials and detailed examples of use.
ライブラリscikit-fdaは、機能データ分析(FDA)用のPythonパッケージです。機能データの表現、前処理、探索的分析のための包括的なツールセットを提供します。このライブラリは、Pythonの科学エコシステムに基づいて構築され、統合されています。特に、scikit-learnアプリケーション プログラミング インターフェイスに準拠しており、このパッケージによって提供される機械学習の機能(パイプライン、モデル選択、ハイパーパラメーター調整など)を利用できます。scikit-fdaパッケージは、3条項のBSDライセンスの下でフリーでオープンソースのソフトウェアとしてリリースされており、FDAコミュニティからの貢献を歓迎しています。ライブラリの広範なドキュメントには、ステップバイステップのチュートリアルと詳細な使用例が含まれています。

openTSNE: A Modular Python Library for t-SNE Dimensionality Reduction and Embedding
openTSNE:t-SNE次元削減と埋め込みのためのモジュール式Pythonライブラリ

One of the most popular techniques for visualizing large, high-dimensional data sets is t-distributed stochastic neighbor embedding (t-SNE). Recently, several extensions have been proposed to address scalability issues and the quality of the resulting visualizations. We introduce openTSNE, a modular Python library that implements the core t-SNE algorithm and its many extensions. The library is faster than existing implementations and can compute projections of data sets containing millions of data points in minutes.
大規模で高次元のデータセットを視覚化するための最も一般的な手法の1つは、t分布確率的近傍埋め込み(t-SNE)です。最近、スケーラビリティの問題と結果として得られる視覚化の品質に対処するために、いくつかの拡張機能が提案されています。ここでは、コアとなるt-SNEアルゴリズムとその多くの拡張を実装するモジュール式のPythonライブラリであるopenTSNEを紹介します。このライブラリは既存の実装よりも高速で、数百万のデータポイントを含むデータセットの予測を数分で計算できます。

magi: A Package for Inference of Dynamic Systems from Noisy and Sparse Data via Manifold-Constrained Gaussian Processes
magi:多様体制約ガウス過程によるノイズとスパースデータからの動的システムの推論のためのパッケージ

This article presents the magi software package for the inference of dynamic systems. The focus of magi is on dynamics modeled by nonlinear ordinary differential equations with unknown parameters. While such models are widely used in science and engineering, the available experimental data for parameter estimation may be noisy and sparse. Furthermore, some system components may be entirely unobserved. magi solves this inference problem with the help of manifold-constrained Gaussian processes within a Bayesian statistical framework, whereas unobserved components have posed a significant challenge for existing software. We use several realistic examples to illustrate the functionality of magi. The user may choose to use the package in any of the R, MATLAB, and Python environments.
この記事では、動的システムの推論のためのmagiソフトウェアパッケージを紹介します。magiの焦点は、未知のパラメータを持つ非線形常微分方程式によってモデル化されるダイナミクスにあります。このようなモデルは科学や工学で広く使用されていますが、パラメータ推定に利用できる実験データはノイズが多く、まばらである可能性があります。さらに、一部のシステムコンポーネントはまったく観察されない場合があります。magiは、ベイズ統計フレームワーク内の多様体制約付きガウス過程の助けを借りてこの推論問題を解決しますが、観測されていないコンポーネントは既存のソフトウェアにとって大きな課題となっています。magiの機能を説明するために、いくつかの現実的な例を使用します。ユーザーは、R、MATLAB、およびPython環境のいずれかでパッケージを使用することを選択できます。

funGp: An R Package for Gaussian Process Regression with Scalar and Functional Inputs
funGp:スカラー入力と関数入力によるガウス過程回帰のRパッケージ

This article introduces funGp, an R package which handles regression problems involving multiple scalar and/or functional inputs, and a scalar output, through the Gaussian process model. This is particularly of interest for the design and analysis of computer experiments with expensive-to-evaluate numerical codes that take as inputs regularly sampled time series. Rather than imposing any particular parametric input-output relationship in advance (e.g., linear, polynomial), Gaussian process models extract this information directly from the data. The package offers built-in dimension reduction, which helps to simplify the representation of the functional inputs and obtain lighter models. It also implements an ant colony based optimization algorithm which supports the calibration of multiple structural characteristics of the model such as the state of each input (active or inactive) and the type of kernel function, while seeking for greater prediction power. The implemented methods are tested and applied to a real case in the domain of marine flooding.
この記事では、ガウス過程モデルを通じて、複数のスカラー入力や関数入力、およびスカラー出力を含む回帰問題を処理するRパッケージであるfunGpを紹介します。これは、定期的にサンプリングされた時系列を入力として受け取る、評価に費用がかかる数値コードを使用したコンピューター実験の設計と分析に特に関心があります。ガウス過程モデルは、特定のパラメトリックな入出力関係(線形、多項式など)を事前に課すのではなく、この情報をデータから直接抽出します。このパッケージには寸法縮小機能が組み込まれているため、機能入力の表現を簡素化し、より軽量なモデルを取得できます。また、アリコロニーベースの最適化アルゴリズムを実装しており、各入力の状態(アクティブまたは非アクティブ)やカーネル関数のタイプなど、モデルの複数の構造特性のキャリブレーションをサポートしながら、より大きな予測力を求めています。実装された方法は、海洋洪水の領域で実際のケースにテストされ、適用されます。

Extremes.jl: Extreme Value Analysis in Julia
Extremes.jl:Juliaの極値解析

The Extremes.jl package provides exhaustive, high-performance functions by leveraging the multiple-dispatch capabilities in Julia for the analysis of extreme values. In particular, the package implements statistical models for both block maxima and peaks-over-threshold methods, along with several methods for the generalized extreme value and generalized Pareto distributions used in extreme value theory. Additionally, the package offers various parameter estimation methods, such as probability-weighted moments, maximum likelihood, and Bayesian estimation. It also includes tools for handling dependence in excesses over a threshold and methods for managing nonstationary models. Inference for extreme quantiles is available for both stationary and nonstationary models, along with diagnostic figures to assess the goodness of fit of the model to the data.
Extremes.jlパッケージは、Juliaのマルチディスパッチ機能を活用して極値を分析することで、網羅的で高性能な機能を提供します。特に、このパッケージは、ブロックの最大値としきい値を超えるピークの両方の方法の統計モデルと、極値理論で使用される一般化極値と一般化パレート分布のいくつかの方法を実装します。さらに、このパッケージには、確率加重モーメント、最尤法、ベイズ推定など、さまざまなパラメーター推定方法が用意されています。また、しきい値を超える過剰の依存性を処理するためのツールと、非定常モデルを管理するための方法も含まれています。極値分位数の推論は、定常モデルと非定常モデルの両方で利用可能であり、診断数値とともに、データに対するモデルの適合度を評価することができます。

cpop: Detecting Changes in Piecewise-Linear Signals
cpop:区分線形信号の変化の検出

Changepoint detection is an important problem with a wide range of applications. There are many different types of changes that one may wish to detect, and a widerange of algorithms and software for detecting them. However there are relatively few approaches for detecting changes-in-slope in the mean of a signal plus noise model. We describe the R package cpop, available on the Comprehensive R Archive Network (CRAN). This package implements CPOP, a dynamic programming algorithm, to find the optimal set of changes that minimizes an L0 penalized cost, with the cost being a weighted residual sum of squares. The package has extended the CPOP algorithm so it can analyse data that is unevenly spaced, allow for heterogeneous noise variance, and allows for a grid of potential change locations to be different from the locations of the data points. There is also an implementation that uses the CROPS algorithm to detect all segmentations that are optimal as you vary the L0 penalty for adding a change across a continuous range of values.
変化点検出は、幅広いアプリケーションで重要な問題です。検出したい変更にはさまざまな種類があり、それらを検出するためのさまざまなアルゴリズムとソフトウェアがあります。ただし、信号とノイズ モデルの平均の傾きの変化を検出する方法は比較的少ないです。ここでは、Comprehensive R Archive Network (CRAN)で利用可能なRパッケージcpopについて説明します。このパッケージは、動的プログラミング アルゴリズムであるCPOPを実装して、L0のペナルティ コスト(コストは加重残差平方和)を最小限に抑える最適な変更のセットを見つけます。このパッケージは、CPOPアルゴリズムを拡張して、不均等な間隔のデータを分析し、不均一なノイズ分散を許容し、データポイントの位置とは異なる可能性のある変更位置のグリッドを可能にします。また、CROPSアルゴリズムを使用して、連続する値の範囲にわたって変更を追加するためのL0ペナルティを変更するときに最適なすべてのセグメンテーションを検出する実装もあります。

Generalized Plackett-Luce Likelihoods
一般化Plackett-Luce尤度

The hyper2 package provides functionality to work with extensions of the Bradley-Terry probability model such as Plackett-Luce likelihood including team strengths and reified entities (monsters). The package allows one to use relatively natural R idiom to manipulate such likelihood functions. Here, I present a generalization of hyper2 in which multiple entities are constrained to have identical Bradley-Terry strengths. A new S3 class ‘hyper3’, along with associated methods, is motivated and introduced. Three datasets are analyzed, each analysis furnishing new insight, and each highlighting different capabilities of the package.
hyper2パッケージは、チームの強みや具体化されたエンティティ(モンスター)を含むPlackett-Luce尤度など、Bradley-Terry確率モデルの拡張機能を操作する機能を提供します。このパッケージでは、比較的自然なRイディオムを使用して、このような尤度関数を操作できます。ここでは、複数のエンティティが同一のBradley-Terryの強みを持つように制約されるhyper2の一般化を示します。新しいS3クラス「hyper3」は、関連するメソッドとともに、動機付けられ、導入されています。3つのデータセットが分析され、各分析は新しい洞察を提供し、それぞれがパッケージの異なる機能を強調します。

fHMM: Hidden Markov Models for Financial Time Series in R
fHMM:Rの金融時系列の隠れマルコフ模型

Hidden Markov models constitute a versatile class of statistical models for time series that are driven by hidden states. In financial applications, the hidden states can often be linked to market regimes such as bearish and bullish markets or recessions and periods of economics growth. To give an example, when the market is in a nervous state, corresponding stock returns often follow some distribution with relatively high variance, whereas calm periods are often characterized by a different distribution with relatively smaller variance. Hidden Markov models can be used to explicitly model the distribution of the observations conditional on the hidden states and the transitions between states, and thus help us to draw a comprehensive picture of market behavior. While various implementations of hidden Markov models are available, a comprehensive R package that is tailored to financial applications is still lacking. In this paper, we introduce the R package fHMM, which provides various tools for applying hidden Markov models to financial time series. It contains functions for fitting hidden Markov models to data, conducting simulation experiments, and decoding the hidden state sequence. Furthermore, functions for model checking, model selection, and state prediction are provided. In addition to basic hidden Markov models, hierarchical hidden Markov models are implemented, which can be used to jointly model multiple data streams that were observed at different temporal resolutions. The aim of the fHMM package is to give R users with an interest in financial applications access to hidden Markov models and their extensions.
隠れマルコフモデルは、隠れ状態によって駆動される時系列の統計モデルの汎用性の高いクラスを構成します。金融アプリケーションでは、隠れた状態は、弱気市場や強気市場、景気後退や経済成長期などの市場体制に関連していることがよくあります。例を挙げると、市場が神経質な状態にあるとき、対応する株式のリターンは、比較的分散性の高い分布に従うことがよくありますが、穏やかな期間は、分散が比較的小さい異なる分布によって特徴付けられることがよくあります。隠れマルコフモデルは、隠れ状態と状態間の遷移を条件とする観測値の分布を明示的にモデル化するために使用できるため、市場行動の包括的な全体像を描くのに役立ちます。隠れマルコフモデルのさまざまな実装が利用可能ですが、金融アプリケーションに合わせた包括的なRパッケージはまだ不足しています。本稿では、隠れマルコフモデルを金融時系列に適用するためのさまざまなツールを提供するRパッケージfHMMについて紹介します。これには、隠れマルコフモデルをデータに当てはめたり、シミュレーション実験を行ったり、隠れ状態シーケンスをデコードしたりするための関数が含まれています。さらに、モデルチェック、モデル選択、状態予測などの機能も用意されています。基本的な隠れマルコフモデルに加えて、階層的な隠れマルコフモデルが実装されており、これを使用して、異なる時間分解能で観測された複数のデータストリームを共同でモデル化できます。fHMMパッケージの目的は、金融アプリケーションに関心のあるRユーザーに、隠れマルコフ・モデルとその拡張へのアクセスを提供することです。

Emulation and History Matching Using the hmer Package
hmerパッケージを使用したエミュレーションと履歴マッチング

Modeling complex real-world situations such as infectious diseases, geological phenomena, and biological processes can present a dilemma: the computer model (referred to as a simulator) needs to be complex enough to capture the dynamics of the system, but each increase in complexity increases the evaluation time of such a simulation, making it difficult to obtain an informative description of parameter choices that would be consistent with observed reality. While methods for identifying acceptable matches to real-world observations exist, for example optimization or Markov chain Monte Carlo methods, they may result in non-robust inferences or may be infeasible for computationally intensive simulators. The techniques of emulation and history matching can make such determinations feasible, efficiently identifying regions of parameter space that produce acceptable matches to data while also providing valuable information about the simulator’s structure, but the mathematical considerations required to perform emulation can present a barrier for makers and users of such simulators compared to other methods. The hmer package provides an accessible framework for using history matching and emulation on simulator data, leveraging the computational efficiency of the approach while enabling users to easily match to, visualize, and robustly predict from their complex simulators.
感染症、地質現象、生物学的プロセスなどの複雑な現実世界の状況をモデル化すると、ジレンマが生じる可能性があります:コンピュータモデル(シミュレータと呼ばれる)は、システムのダイナミクスを捉えるのに十分なほど複雑である必要がありますが、複雑さが増すたびにそのようなシミュレーションの評価時間が長くなり、観察された現実と一致するパラメータ選択の有益な説明を得ることが困難になります。最適化法やマルコフ連鎖モンテカルロ法など、実世界の観測値と許容できる一致を特定する方法が存在しますが、それらはロバストでない推論になるか、計算負荷の高いシミュレーターでは実行できない場合があります。エミュレーションと履歴マッチングの手法は、このような決定を実現可能にし、データに対して許容可能な一致を生成するパラメータ空間の領域を効率的に特定すると同時に、シミュレータの構造に関する貴重な情報を提供しますが、エミュレーションを実行するために必要な数学的考慮事項は、他の方法と比較して、そのようなシミュレータのメーカーとユーザーにとって障壁となる可能性があります。hmerパッケージは、シミュレータデータに対して履歴マッチングとエミュレーションを使用するためのアクセス可能なフレームワークを提供し、アプローチの計算効率を活用しながら、ユーザーが複雑なシミュレータに簡単にマッチングし、視覚化し、ロバストに予測できるようにします。

Journal of Statistical Software: Volume 109の記事一覧