Journal of Statistical Software Volume 103に記載されている内容を一覧にまとめ、機械翻訳を交えて日本語化し掲載します。

記事

modelsummary: Data and Model Summaries in R
modelsummary:R のデータとモデルの概要

modelsummary is a package to summarize data and statistical models in R. It supports over one hundred types of models out-of-the-box, and allows users to report the results of those models side-by-side in a table, or in coefficient plots. It makes it easy to execute common tasks such as computing robust standard errors, adding significance stars, and manipulating coefficient and model labels. Beyond model summaries, the package also includes a suite of tools to produce highly flexible data summary tables, such as dataset overviews, correlation matrices, (multi-level) cross-tabulations, and balance tables (also known as “Table 1”). The appearance of the tables produced by modelsummary can be customized using external packages such as kableExtra, gt, flextable, or huxtable; the plots can be customized using ggplot2. Tables can be exported to many output formats, including HTML, LaTeX, Text/Markdown, Microsoft Word, Powerpoint, Excel, RTF, PDF, and image files. Tables and plots can be embedded seamlessly in rmarkdown, knitr, or Sweave dynamic documents. The modelsummary package is designed to be simple, robust, modular, and extensible.
modelsummaryは、データと統計モデルをRでまとめるためのパッケージです。100種類以上のモデルがすぐにサポートされており、ユーザーはそれらのモデルの結果を表または係数プロットで並べて報告できます。これにより、ロバストな標準誤差の計算、有意星の追加、係数とモデルのラベルの操作などの一般的なタスクを簡単に実行できます。このパッケージには、モデルのサマリーだけでなく、データセットの概要、相関マトリックス、(マルチレベル)クロス集計、バランステーブル(「テーブル1」とも呼ばれます)など、柔軟性の高いデータ サマリー テーブルを作成するための一連のツールも含まれています。modelsummaryによって生成されるテーブルの外観は、kableExtra、gt、flextable、huxtableなどの外部パッケージを使用してカスタマイズできます。プロットはggplot2を使用してカスタマイズできます。テーブルは、HTML、LaTeX、Text / Markdown、Microsoft Word、Powerpoint、Excel、RTF、PDF、画像ファイルなど、さまざまな出力形式にエクスポートできます。テーブルとプロットは、rmarkdown、knitr、またはSweaveの動的ドキュメントにシームレスに埋め込むことができます。modelsummaryパッケージは、シンプルで堅牢、モジュール式、および拡張可能になるように設計されています。

stringi: Fast and Portable Character String Processing in R
stringi:Rでの高速で移植可能な文字列処理

Effective processing of character strings is required at various stages of data analysis pipelines: from data cleansing and preparation, through information extraction, to report generation. Pattern searching, string collation and sorting, normalization, transliteration, and formatting are ubiquitous in text mining, natural language processing, and bioinformatics. This paper discusses and demonstrates how and why stringi, a mature R package for fast and portable handling of string data based on ICU (International Components for Unicode), should be included in each statistician’s or data scientist’s repertoire to complement their numerical computing and data wrangling skills.
文字列の効率的な処理は、データ解析パイプラインの様々な段階で、データのクレンジングや準備から情報抽出、レポート生成まで、さまざまな段階で必要となります。パターン検索、文字列の照合とソート、正規化、音訳、およびフォーマットは、テキストマイニング、自然言語処理、およびバイオインフォマティクスで広く利用されています。このホワイトペーパーでは、ICU(International Components for Unicode)に基づく文字列データの高速かつ移植可能な処理のための成熟したRパッケージであるstringiを、各統計学者またはデータサイエンティストのレパートリーに含めて、数値計算とデータラングリングのスキルを補完する方法と理由について説明し、デモンストレーションします。

evgam: An R Package for Generalized Additive Extreme Value Models
evgam:一般化加法極値モデルのためのRパッケージ

This article introduces the R package evgam. The package provides functions for fitting extreme value distributions. These include the generalized extreme value and generalized Pareto distributions. The former can also be fitted through a point process representation. Package evgam supports quantile regression via the asymmetric Laplace distribution, which can be useful for estimating high thresholds, sometimes used to discriminate between extreme and non-extreme values. The main addition of package evgam is to let extreme value distribution parameters have generalized additive model forms, the smoothness of which can be objectively estimated using Laplace’s method. Illustrative examples fitting various distributions with various specifications are given. These include daily precipitation accumulations for part of Colorado, US, used to illustrate spatial models, and daily maximum temperatures for Fort Collins, Colorado, US, used to illustrate temporal models.
本記事では、Rパッケージevgamについて紹介します。このパッケージには、極値分布を適合するための関数が用意されています。これには、一般化極値と一般化パレート分布が含まれます。前者は、ポイントプロセス表現を通じてフィッティングすることもできます。パッケージevgamは、非対称ラプラス分布による分位点回帰をサポートしており、これは高いしきい値を推定するのに役立ち、極端な値と非極端な値を区別するために使用されることもあります。パッケージevgamの主な追加は、極値分布パラメータが一般化された加法モデル形式を持つようにすることであり、その滑らかさはラプラスの方法を使用して客観的に推定できます。さまざまな仕様のさまざまな分布を適合させる実例が示されています。これには、空間モデルを示すために使用される米国コロラド州の一部の日降水累積や、時間モデルを示すために使用される米国コロラド州フォートコリンズの日次最高気温が含まれます。

scikit-mobility: A Python Library for the Analysis, Generation, and Risk Assessment of Mobility Data
scikit-mobility:モビリティデータの分析、生成、リスク評価のためのPythonライブラリ

The last decade has witnessed the emergence of massive mobility datasets, such as tracks generated by GPS devices, call detail records, and geo-tagged posts from social media platforms. These datasets have fostered a vast scientific production on various applications of mobility analysis, ranging from computational epidemiology to urban planning and transportation engineering. A strand of literature addresses data cleaning issues related to raw spatiotemporal trajectories, while the second line of research focuses on discovering the statistical “laws” that govern human movements. A significant effort has also been put on designing algorithms to generate synthetic trajectories able to reproduce, realistically, the laws of human mobility. Last but not least, a line of research addresses the crucial problem of privacy, proposing techniques to perform the re-identification of individuals in a database. A view on state-of-the-art cannot avoid noticing that there is no statistical software that can support scientists and practitioners with all the aspects mentioned above of mobility data analysis. In this paper, we propose scikit-mobility, a Python library that has the ambition of providing an environment to reproduce existing research, analyze mobility data, and simulate human mobility habits. scikit-mobility is efficient and easy to use as it extends pandas, a popular Python library for data analysis. Moreover, scikit-mobility provides the user with many functionalities, from visualizing trajectories to generating synthetic data, from analyzing statistical patterns to assessing the privacy risk related to the analysis of mobility datasets.
この10年間で、GPSデバイスによって生成されたトラック、通話詳細記録、ソーシャル メディア プラットフォームからのジオタグ付き投稿など、大規模なモビリティ データセットが出現しました。これらのデータセットは、計算疫学から都市計画、交通工学に至るまで、モビリティ分析のさまざまなアプリケーションに関する膨大な科学的成果を生み出してきました。生の時空間軌跡に関連するデータクリーニングの問題を扱った文献もあれば、人間の動きを支配する統計的な「法則」の発見に焦点を当てた研究も数多くあります。また、人間の移動の法則を現実的に再現できる合成軌道を生成するためのアルゴリズムの設計にも多大な努力が払われています。最後になりましたが、一連の研究はプライバシーの重要な問題に取り組み、データベース内の個人を再識別する手法を提案しています。最先端の視点から見ると、上記のモビリティデータ分析のすべての側面で科学者や実務家をサポートできる統計ソフトウェアがないことに気付かざるを得ません。この論文では、既存の研究を再現し、移動データを分析し、人間の移動習慣をシミュレートするための環境を提供するという野心を持つPythonライブラリであるscikit-mobilityを提案します。scikit-mobilityは、データ分析用の一般的なPythonライブラリであるpandasを拡張するため、効率的で使いやすいです。さらに、scikit-mobilityは、軌跡の視覚化から合成データの生成、統計パターンの分析からモビリティデータセットの分析に関連するプライバシーリスクの評価まで、多くの機能をユーザーに提供します。

spNNGP R Package for Nearest Neighbor Gaussian Process Models
最近傍ガウス過程モデルのためのspNNGP Rパッケージ

This paper describes and illustrates functionality of the spNNGP R package. The package provides a suite of spatial regression models for Gaussian and non-Gaussian pointreferenced outcomes that are spatially indexed. The package implements several Markov chain Monte Carlo (MCMC) and MCMC-free nearest neighbor Gaussian process (NNGP) models for inference about large spatial data. Non-Gaussian outcomes are modeled using a NNGP Pólya-Gamma latent variable. OpenMP parallelization options are provided to take advantage of multiprocessor systems. Package features are illustrated using simulated and real data sets.
このホワイト ペーパーでは、spNNGP Rパッケージの機能について説明し、説明します。このパッケージは、空間的にインデックス化されたガウスおよび非ガウスの点参照結果に対する一連の空間回帰モデルを提供します。このパッケージは、大規模な空間データに関する推論のために、いくつかのマルコフ連鎖モンテカルロ(MCMC)モデルとMCMCフリーの最近傍ガウス過程(NNGP)モデルを実装します。非ガウス結果は、NNGP Pólya-Gamma潜在変数を使用してモデル化されます。OpenMP並列化オプションは、マルチプロセッサ システムを利用するために提供されています。パッケージの特徴は、シミュレートされたデータセットと実際のデータセットを使用して示されています。

Feller-Pareto and Related Distributions: Numerical Implementation and Actuarial Applications
フェラー・パレートと関連分布:数値実装と保険数理応用

Actuaries model insurance claim amounts using heavy tailed probability distributions. They routinely need to evaluate quantities related to these distributions such as quantiles in the far right tail, moments or limited moments. Furthermore, actuaries often resort to simulation to solve otherwise untractable risk evaluation problems. The paper discusses our implementation of support functions for the Feller-Pareto distribution for the R package actuar. The Feller-Pareto defines a large family of heavy tailed distributions encompassing the transformed beta family and many variants of the Pareto distribution.
アクチュアリーは、ヘビーテール確率分布を使用して保険金請求額をモデル化します。彼らは、右端の裾の分位数、モーメント、限られたモーメントなど、これらの分布に関連する量を定期的に評価する必要があります。さらに、アクチュアリーは、他の方法では扱いにくいリスク評価の問題を解決するために、シミュレーションに頼ることがよくあります。この論文では、Rパッケージアクチュエータのフェラー・パレート分布のサポート関数の実装について説明します。フェラー・パレートは、変換されたベータファミリーとパレート分布の多くの変種を含む、ヘビーテール分布の大きなファミリーを定義します。

Hierarchical Clustering with Contiguity Constraint in R
Rの隣接性制約を使用した階層クラスタリング

This article presents a new implementation of hierarchical clustering for the R language that allows one to apply spatial or temporal contiguity constraints during the clustering process. The need for contiguity constraint arises, for instance, when one wants to partition a map into different domains of similar physical conditions, identify discontinuities in time series, group regional administrative units with respect to their performance, and so on. To increase computation efficiency, we programmed the core functions in plain C. The result is a new R function, constr.hclust, which is distributed in package adespatial. The program implements the general agglomerative hierarchical clustering algorithm described by Lance and Williams (1966; 1967), with the particularity of allowing only clusters that are contiguous in geographic space or along time to fuse at any given step. Contiguity can be defined with respect to space or time. Information about spatial contiguity is provided by a connection network among sites, with edges describing the links between connected sites. Clustering with a temporal contiguity constraint is also known as chronological clustering. Information on temporal contiguity can be implicitly provided as the rank positions of observations in the time series. The implementation was mirrored on that found in the hierarchical clustering function hclust of the standard R package stats (R Core Team 2022). We transcribed that function from Fortran to C and added the functionality to apply constraints when running the function. The implementation is efficient. It is limited mainly by input/output access as massive amounts of memory are potentially needed to store copies of the dissimilarity matrix and update its elements when analyzing large problems. We provided R computer code for plotting results for numbers of clusters.
この記事では、クラスタリング プロセス中に空間的または時間的な隣接性制約を適用できるようにする、R言語の階層クラスタリングの新しい実装について説明します。隣接性制約が必要になるのは、たとえば、マップを類似した物理的条件の異なるドメインに分割したり、時系列の不連続性を特定したり、パフォーマンスに関して地域行政単位をグループ化したりする場合などです。計算効率を高めるために、コア関数をプレーンCでプログラムしました。その結果、新しいR関数constr.hclustがadespatialパッケージに配布されます。このプログラムは、Lance and Williams (1966; 1967)によって記述された一般的な凝集階層クラスタリング アルゴリズムを実装しており、地理的空間内で連続しているクラスターまたは時間に沿って任意のステップで融合するクラスターのみを許可するという特殊性を備えています。隣接性は、空間または時間に関して定義できます。空間的隣接性に関する情報は、サイト間の接続ネットワークによって提供され、エッジは接続されたサイト間のリンクを表します。時間的隣接性制約を使用したクラスタリングは、時系列クラスタリングとも呼ばれます。時間的連続性に関する情報は、時系列の観測値のランク位置として暗黙的に提供できます。この実装は、標準のRパッケージstats (R Core Team 2022)の階層クラスタリング関数hclustに見られる実装を反映しています。その関数をFortranからCに転記し、関数の実行時に制約を適用する機能を追加しました。実装は効率的です。これは、大規模な問題を解析するときに非類似度行列のコピーを保存し、その要素を更新するために大量のメモリが必要になる可能性があるため、主に入出力アクセスによって制限されます。クラスタ数の結果を印刷するためのRコンピュータコードを提供しました。

On the Programmatic Generation of Reproducible Documents
プログラムによる再現可能な文書の生成について

Reproducible document standards, like R Markdown, facilitate the programmatic creation of documents whose content is itself programmatically generated. While programmatic content alone may not be sufficient for a rendered document since it does not include prose (content generated by an author to provide context, a narrative, etc.) programmatic generation can provide substantial efficiencies for structuring and constructing documents. This paper explores the programmatic generation of reproducible documents by distinguishing components that can be created by computational means from those requiring human-generation, providing guidelines for the generation of these documents, and identifying a use case in clinical trial reporting. These concepts and use case are illustrated through the listdown package for the R programming environment, which is is currently available on the Comprehensive R Archive Network.
R Markdownのような再現可能なドキュメント標準は、コンテンツ自体がプログラムによって生成されるドキュメントのプログラムによる作成を容易にします。プログラムによるコンテンツだけでは、レンダリングされたドキュメントには散文(コンテキストや物語などを提供するために著者によって生成されたコンテンツ)が含まれていないため、レンダリングには不十分な場合がありますが、プログラムによる生成により、ドキュメントの構造化と構築に大幅な効率を提供できます。このホワイトペーパーでは、計算手段で作成できるコンポーネントと人間による生成が必要なコンポーネントを区別し、これらのドキュメントの生成に関するガイドラインを提供し、臨床試験レポートのユースケースを特定することで、再現性のあるドキュメントのプログラムによる生成について説明します。これらの概念と使用例は、現在Comprehensive R Archive Networkで提供されているRプログラミング環境のlistdownパッケージを通じて説明されています。

Automatic Identification and Forecasting of Structural Unobserved Components Models with UComp
UCompによる構造未観測コンポーネント・モデルの自動同定と予測

UComp is a powerful library for building unobserved components models, useful for forecasting and other important operations, such us de-trending, cycle analysis, seasonal adjustment, signal extraction, etc. One of the most outstanding features that makes UComp unique among its class of related software implementations is that models may be built automatically by identification algorithms (three versions are available). These algorithms select the best model among many possible combinations. Another relevant feature is that it is coded in C++, opening the door to link it to different popular and widely used environments, like R, MATLAB, Octave, Python, etc. The implemented models for the components are more general than the usual ones in the field of unobserved components modeling, including different types of trend, cycle, seasonal and irregular components, input variables and outlier detection. The automatic character of the algorithms required the development of many complementary algorithms to control performance and make it applicable to as many different time series as possible. The library is open source and available in different formats in public repositories. The performance of the library is illustrated working on real data in several varied examples.
UCompは、観測されていないコンポーネント モデルを構築するための強力なライブラリであり、予測や、トレンド除去、サイクル分析、季節調整、信号抽出などの他の重要な操作に役立ちます。UCompを関連ソフトウェア実装のクラスの中でユニークにする最も優れた機能の1つは、モデルが識別アルゴリズムによって自動的に構築できることです(3つのバージョンが利用可能)。これらのアルゴリズムは、多くの可能な組み合わせの中から最適なモデルを選択します。もう1つの関連機能は、C++でコーディングされているため、R、MATLAB、Octave、Pythonなど、広く普及しているさまざまな環境にリンクできる点です。コンポーネントに実装されたモデルは、さまざまなタイプのトレンド、サイクル、季節成分、不規則成分、入力変数、外れ値検出など、観測されていないコンポーネントモデリングの分野で通常のモデルよりも一般的です。アルゴリズムの自動的な性質は、パフォーマンスを制御し、それをできるだけ多くの異なる時系列に適用できるようにするために、多くの補完的なアルゴリズムの開発を必要としました。ライブラリはオープンソースであり、公開リポジトリでさまざまな形式で利用できます。ライブラリのパフォーマンスは、いくつかのさまざまな例で実際のデータでの作業を示しています。

exuber: Recursive Right-Tailed Unit Root Testing with R
exuber:Rによる再帰的右裾単元根テスト

This paper introduces the R package exuber for testing and date-stamping periods of mildly explosive dynamics (exuberance) in time series. The package computes test statistics for the supremum augmented Dickey-Fuller test (SADF) of Phillips, Wu, and Yu (2011), the generalized SADF (GSADF) of Phillips, Shi, and Yu (2015a,b), and the panel GSADF proposed by Pavlidis, Yusupova, Paya, Peel, Martínez-García, Mack, and Grossman (2016); generates finite-sample critical values based on Monte Carlo and bootstrap methods; and implements the corresponding date-stamping procedures. The recursive least-squares algorithm that we introduce in our implementation of these techniques utilizes the matrix inversion lemma and in that way achieves significant speed improvements. We illustrate the speed gains in a simulation experiment, and provide illustrations of the package using artificial series and a panel on international house prices.
この論文では、時系列の穏やかに爆発的なダイナミクス(活気)のテスト期間と日付スタンプ期間のためのRパッケージexuberを紹介します。このパッケージは、Phillips, Wu, and Yu (2011)の上限拡張Dickey-Fuller検定(SADF)、Phillips, Shi, and Yu (2015a,b)の一般化SADF (GSADF)、Pavlidis, Yusupova, Paya, Peel, Martínez-García, Mack, and Grossman (2016)によって提案されたパネルGSADFのテスト統計を計算します。モンテカルロ法とブートストラップ法に基づいて有限サンプルの臨界値を生成します。また、対応する日付スタンプ手順を実装します。これらの手法の実装で導入する再帰的最小二乗アルゴリズムは、行列反転補題を利用し、これにより大幅な速度向上を実現します。シミュレーション実験で速度向上を図示し、人工シリーズと国際住宅価格パネルを用いたパッケージのイラストを提供します。

Blang: Bayesian Declarative Modeling of General Data Structures and Inference via Algorithms Based on Distribution Continua
Blang:一般データ構造のベイズ宣言モデリングと分布連続体に基づくアルゴリズムによる推論

Consider a Bayesian inference problem where a variable of interest does not take values in a Euclidean space. These “non-standard” data structures are in reality fairly common. They are frequently used in problems involving latent discrete factor models, networks, and domain specific problems such as sequence alignments and reconstructions, pedigrees, and phylogenies. In principle, Bayesian inference should be particularly wellsuited in such scenarios, as the Bayesian paradigm provides a principled way to obtain confidence assessment for random variables of any type. However, much of the recent work on making Bayesian analysis more accessible and computationally efficient has focused on inference in Euclidean spaces. In this paper, we introduce Blang, a domain specific language and library aimed at bridging this gap. Blang allows users to perform Bayesian analysis on arbitrary data types while using a declarative syntax similar to the popular family of probabilistic programming languages, BUGS. Blang is augmented with intuitive language additions to create data types of the user’s choosing. To perform inference at scale on such arbitrary state spaces, Blang leverages recent advances in sequential Monte Carlo and non-reversible Markov chain Monte Carlo methods.
関心のある変数がユークリッド空間で値を取らないベイズ推論問題を考えてみましょう。これらの「非標準」データ構造は、実際にはかなり一般的です。これらは、潜在離散因子モデル、ネットワーク、および配列のアラインメントと再構成、血統、系統発生などのドメイン固有の問題を含む問題でよく使用されます。原則として、ベイズ推論は、ベイズパラダイムが任意のタイプの確率変数の信頼度評価を取得するための原則的な方法を提供するため、このようなシナリオに特に適しているはずです。しかし、ベイズ解析をよりアクセスしやすく、計算効率の高いものにするための最近の研究の多くは、ユークリッド空間での推論に焦点を当てています。本稿では、このギャップを埋めることを目的としたドメイン固有言語およびライブラリであるBlangについて紹介します。Blangを使用すると、ユーザーは、確率的プログラミング言語の一般的なファミリであるBUGSと同様の宣言型構文を使用しながら、任意のデータ型に対してベイズ分析を実行できます。Blangは、直感的な言語の追加で拡張され、ユーザーが選択したデータ型を作成します。このような任意の状態空間で大規模に推論を実行するために、Blangは、逐次モンテカルロ法と非可逆マルコフ連鎖モンテカルロ法の最近の進歩を活用しています。

[RETRACTED ARTICLE] irtplay: An R Package for Unidimensional Item Response Theory Modeling
[撤回された記事] irtplay:一次元アイテム応答理論モデリングのためのRパッケージ

The article and accompanying software package have been retracted by the authors, and hence removed from the journal, because the software violated the copyright of a proprietary software and the intellectual property of a third party.
この論文と付随するソフトウェアパッケージは、ソフトウェアがプロプライエタリソフトウェアの著作権と第三者の知的財産を侵害したため、著者によって撤回され、ジャーナルから削除されました。

Robust Mediation Analysis: The R Package robmed
ロバストなメディエーション分析:Rパッケージが奪われた

Mediation analysis is one of the most widely used statistical techniques in the social, behavioral, and medical sciences. Mediation models allow to study how an independent variable affects a dependent variable indirectly through one or more intervening variables, which are called mediators. The analysis is often carried out via a series of linear regressions, in which case the indirect effects can be computed as products of coefficients from those regressions. Statistical significance of the indirect effects is typically assessed via a bootstrap test based on ordinary least-squares estimates. However, this test is sensitive to outliers or other deviations from normality assumptions, which poses a serious threat to empirical testing of theory about mediation mechanisms. The R package robmed implements a robust procedure for mediation analysis based on the fast-and-robust bootstrap methodology for robust regression estimators, which yields reliable results even when the data deviate from the usual normality assumptions. Various other procedures for mediation analysis are included in package robmed as well. Moreover, robmed introduces a new formula interface that allows to specify mediation models with a single formula, and provides various plots for diagnostics or visual representation of the results.
メディエーション分析は、社会科学、行動科学、医学の分野で最も広く使用されている統計手法の1つです。メディエーション・モデルでは、独立変数が1つ以上の介在変数(メディエーターと呼ばれる)を通じて間接的に従属変数にどのように影響するかを調べることができます。分析は多くの場合、一連の線形回帰を介して実行され、その場合、間接的な効果はそれらの回帰からの係数の積として計算できます。間接効果の統計的有意性は、通常、通常の最小二乗推定値に基づくブートストラップ検定によって評価されます。ただし、このテストは外れ値や正規性の仮定からの他の逸脱に敏感であり、メディエーションメカニズムに関する理論の経験的テストに深刻な脅威をもたらします。Rパッケージrobmedは、ロバスト回帰推定量のための高速かつロバストなブートストラップ方法論に基づくメディエーション分析のための堅牢な手順を実装しており、データが通常の正規性の仮定から逸脱している場合でも信頼性の高い結果が得られます。仲介分析のための他のさまざまな手続きもパッケージrobmedに含まれています。さらに、robmedは、単一の数式でメディエーションモデルを指定できる新しい数式インターフェイスを導入し、診断や結果の視覚的表現のためのさまざまなプロットを提供します。

HighFrequencyCovariance: A Julia Package for Estimating Covariance Matrices Using High Frequency Financial Data
HighFrequencyCovariance:高頻度財務データを使用して共分散行列を推定するためのJuliaパッケージ

High frequency data typically exhibit asynchronous trading and microstructure noise, which can bias the covariances estimated by standard estimators. While a number of specialized estimators have been proposed, they have had limited availability in open source software. HighFrequencyCovariance is the first Julia package which implements specialized estimators for volatility, correlation and covariance using high frequency financial data. It also implements complementary algorithms for matrix regularization. This paper presents the issues associated with exploiting high frequency financial data and describes the volatility, covariance and regularization algorithms that have been implemented. We then demonstrate the use of the package using foreign exchange market tick data to estimate the covariance of the exchange rates between different currencies. We also perform a Monte Carlo experiment, which shows the accuracy gains that are possible over simpler covariance estimation techniques.
高頻度データは通常、非同期取引と微細構造ノイズを示し、標準推定量によって推定される共分散に偏りを与える可能性があります。多くの専門的な見積もりが提案されていますが、オープンソースソフトウェアでは利用可能性が限られています。HighFrequencyCovarianceは、高頻度の財務データを使用して、ボラティリティ、相関、共分散に特化した推定量を実装した最初のJuliaパッケージです。また、行列の正則化のための補完的なアルゴリズムも実装します。このホワイトペーパーでは、高頻度の金融データの活用に関連する問題を提示し、実装されているボラティリティ、共分散、および正則化アルゴリズムについて説明します。次に、外国為替市場のティックデータを使用してパッケージの使用を示し、異なる通貨間の為替レートの共分散を推定します。また、モンテカルロ実験も行い、単純な共分散推定手法よりも可能な精度の向上を示しています。

Bambi: A Simple Interface for Fitting Bayesian Linear Models in Python
Bambi:Pythonでベイジアン線形モデルをフィッティングするためのシンプルなインターフェース

The popularity of Bayesian statistical methods has increased dramatically in recent years across many research areas and industrial applications. This is the result of a variety of methodological advances with faster and cheaper hardware as well as the development of new software tools. Here we introduce an open source Python package named Bambi (BAyesian Model Building Interface) that is built on top of the PyMC probabilistic programming framework and the ArviZ package for exploratory analysis of Bayesian models. Bambi makes it easy to specify complex generalized linear hierarchical models using a formula notation similar to those found in R. We demonstrate Bambi’s versatility and ease of use with a few examples spanning a range of common statistical models including multiple regression, logistic regression, and mixed-effects modeling with crossed group specific effects. Additionally we discuss how automatic priors are constructed. Finally, we conclude with a discussion of our plans for the future development of Bambi.
ベイズ統計手法の人気は、近年、多くの研究分野や産業応用で劇的に増加しています。これは、より高速で安価なハードウェアによるさまざまな方法論の進歩と、新しいソフトウェアツールの開発の結果です。ここでは、PyMC確率的プログラミングフレームワークとベイジアンモデルの探索的分析のためのArviZパッケージの上に構築されたBambi(BAyesian Model Building Interface)という名前のオープンソースPythonパッケージを紹介します。Bambiを使用すると、Rに見られるものと同様の式表記を使用して、複雑な一般化線形階層モデルを簡単に指定できます。Bambiの汎用性と使いやすさを、重回帰、ロジスティック回帰、クロスグループ固有の効果による混合効果モデリングなど、さまざまな一般的な統計モデルにまたがるいくつかの例で示します。さらに、自動事前確率がどのように構築されるかについても説明します。最後に、バンビの将来の開発計画についての議論で締めくくります。

コード・スニペット

plot3logit: Ternary Plots for Interpreting Trinomial Regression Models
plot3logit:三項回帰モデルを解釈するための三項プロット

This paper presents the R package plot3logit which enables the covariate effects of trinomial regression models to be represented graphically by means of a ternary plot. The aim of the plot is helping the interpretation of regression coefficients in terms of the effects that a change in values of regressors has on the probability distribution of the dependent variable. Such changes may involve either a single regressor, or a group of them (composite changes), and the package permits both cases to be handled in a user-friendly way. Moreover, plot3logit can compute and draw confidence regions of the effects of covariate changes and enables multiple changes and profiles to be represented and compared jointly. Upstream and downstream compatibility makes the package able to work with other R packages or applications other than R.
この論文では、三項回帰モデルの共変量効果を三項プロットを使用してグラフィカルに表現できるようにするRパッケージplot3logitについて説明します。プロットの目的は、リグレッサーの値の変更が従属変数の確率分布に及ぼす影響の観点から、回帰係数の解釈を支援することです。このような変更には、単一のリグレッサーまたはそれらのグループ(複合変更)が含まれる場合があり、パッケージでは両方のケースをユーザーフレンドリーな方法で処理できます。さらに、plot3logitは、共変量の変更の影響の信頼領域を計算して描画し、複数の変更とプロファイルを共同で表して比較することができます。アップストリームとダウンストリームの互換性により、パッケージはR以外の他のRパッケージまたはアプリケーションと連携できます。

Spbsampling: An R Package for Spatially Balanced Sampling
Spbsampling:空間的にバランスの取れたサンプリングのためのRパッケージ

The basic idea underpinning the theory of spatially balanced sampling is that units closer to each other provide less information about a target of inference than units farther apart. Therefore, it should be desirable to select a sample well spread over the population of interest, or a spatially balanced sample. This situation is easily understood in, among many others, environmental, geological, biological, and agricultural surveys, where usually the main feature of the population is to be geo-referenced. Since traditional sampling designs generally do not exploit the spatial features and since it is desirable to take into account the information regarding spatial dependence, several sampling designs have been developed in order to achieve this objective. In this paper, we present the R package Spbsampling, which provides functions in order to perform three specific sampling designs that pursue the aforementioned purpose. In particular, these sampling designs achieve spatially balanced samples using a summary index of the distance matrix. In this sense, the applicability of the package is much wider, as a distance matrix can be defined for units according to variables different than geographical coordinates.
空間的にバランスの取れたサンプリングの理論を支える基本的な考え方は、単位が互いに近いほど、単位が離れているほど推論の対象に関する情報が少なくなるというものです。したがって、対象母集団全体に十分に分散したサンプル、または空間的にバランスの取れたサンプルを選択することが望ましいはずです。この状況は、環境、地質学、生物学、農業などの調査で容易に理解でき、通常、人口の主な特徴が地理的に参照されます。従来のサンプリング設計は一般に空間的特徴を利用しず、空間依存性に関する情報を考慮に入れることが望ましいため、この目的を達成するためにいくつかのサンプリング設計が開発されました。本稿では、前述の目的を追求した3つの特定のサンプリング設計を実行するための機能を提供するRパッケージSpbsamplingについて紹介します。特に、これらのサンプリング設計では、距離行列のサマリー インデックスを使用して、空間的にバランスの取れたサンプルが実現されます。この意味で、地理的座標とは異なる変数に従って単位に対して距離行列を定義できるため、パッケージの適用性ははるかに広くなります。

書評

Learning Base R (2nd Edition)
ラーニングベースR(第2版)

Python and R for the Modern Data Scientist
現代のデータサイエンティストのためのPythonとR

Journal of Statistical Software: Volume 103の記事一覧