記事
Statistical Network Analysis with Bergm
Bergmによる統計的ネットワーク分析
Recent advances in computational methods for intractable models have made network data increasingly amenable to statistical analysis. Exponential random graph models (ERGMs) emerged as one of the main families of models capable of capturing the complex dependence structure of network data in a wide range of applied contexts. The Bergm package for R has become a popular package to carry out Bayesian parameter inference, missing data imputation, model selection and goodness-of-fit diagnostics for ERGMs. Over the last few years, the package has been considerably improved in terms of efficiency by adopting some of the state-of-the-art Bayesian computational methods for doublyintractable distributions. Recently, version 5 of the package has been made available on CRAN having undergone a substantial makeover, which has made it more accessible and easy to use for practitioners. New functions include data augmentation procedures based on the approximate exchange algorithm for dealing with missing data, adjusted pseudolikelihood and pseudo-posterior procedures, which allow for fast approximate inference of the ERGM parameter posterior and model evidence for networks on several thousands nodes.
近年の難解なモデルの計算方法の進歩により、ネットワークデータはますます統計解析に適したものになっています。指数ランダムグラフモデル(ERGM)は、幅広い応用コンテキストでネットワークデータの複雑な依存構造をキャプチャできるモデルの主要なファミリーの1つとして登場しました。Bergm for Rパッケージは、ERGMのベイズパラメータ推論、欠損データ補完、モデル選択、適合度診断を実行するための一般的なパッケージとなっています。ここ数年で、このパッケージは、最先端のベイズ計算手法を二重に扱いにくい分布に採用することで、効率の面で大幅に改善されました。最近、パッケージのバージョン5がCRANで利用可能になり、大幅な改造が行われ、開業医にとってよりアクセスしやすく、使いやすくなりました。新しい機能には、欠落データを処理するための近似交換アルゴリズムに基づくデータ拡張手順、調整された疑似尤度および疑似事後処理が含まれます。これにより、ERGMパラメータの事後推論と数千ノード上のネットワークの証拠モデルの高速近似推論が可能になります。
ParMA: Parallelized Bayesian Model Averaging for Generalized Linear Models
ParMA:一般化線形モデルのための並列ベイジアンモデル平均化
This paper describes the gretl function package ParMA, which provides Bayesian model averaging (BMA) in generalized linear models. In order to overcome the lack of analytical specification for many of the models covered, the package features an implementation of the reversible jump Markov chain Monte Carlo technique, following the original idea by Green (1995), as a flexible tool to model several specifications. Particular attention is devoted to computational aspects such as the automatization of the model building procedure and the parallelization of the sampling scheme.
この論文では、一般化線形モデルでベイズモデル平均化(BMA)を提供するgretl関数パッケージParMAについて説明します。対象となる多くのモデルで解析仕様の欠如を克服するために、このパッケージは、Green(1995)の元のアイデアに従って、いくつかの仕様をモデル化するための柔軟なツールとして、可逆ジャンプマルコフ連鎖モンテカルロ法の実装を特徴としています。特に、モデル構築手順の自動化やサンプリングスキームの並列化など、計算の側面に注目が集まっています。
AMR: An R Package for Working with Antimicrobial Resistance Data
AMR:抗菌薬耐性データを扱うためのRパッケージ
Antimicrobial resistance is an increasing threat to global health. Evidence for this trend is generated in microbiological laboratories through testing microorganisms for resistance against antimicrobial agents. International standards and guidelines are in place for this process as well as for reporting data on (inter-)national levels. However, there is a gap in the availability of standardized and reproducible tools for working with laboratory data to produce the required reports. It is known that extensive efforts in data cleaning and validation are required when working with data from laboratory information systems. Furthermore, the global spread and relevance of antimicrobial resistance demands to incorporate international reference data in the analysis process. In this paper, we introduce the AMR package for R that aims at closing this gap by providing tools to simplify antimicrobial resistance data cleaning and analysis, while incorporating international guidelines and scientifically reliable reference data. The AMR package enables standardized and reproducible antimicrobial resistance analyses, including the application of evidence-based rules, determination of first isolates, translation of various codes for microorganisms and antimicrobial agents, determination of (multi-drug) resistant microorganisms, and calculation of antimicrobial resistance, prevalence and future trends. The AMR package works independently of any laboratory information system and provides several functions to integrate into international workflows (e.g., WHONET software provided by the World Health Organization).
抗菌薬耐性は、世界の健康に対する脅威としてますます高まっています。この傾向の証拠は、微生物の抗菌剤に対する耐性を試験することで、微生物学研究室で生み出されています。このプロセスと、(国際)国家レベルでのデータ報告に関する国際基準とガイドラインが整備されています。しかし、ラボのデータを使用して必要なレポートを作成するための標準化された再現可能なツールの利用可能性にはギャップがあります。ラボ情報システムからのデータを扱う際には、データのクリーニングとバリデーションに多大な努力が必要であることが知られています。さらに、抗菌薬耐性の世界的な広がりと関連性により、国際的な参照データを分析プロセスに組み込む必要があります。本稿では、国際的なガイドラインや科学的に信頼性の高い参考データを取り入れながら、抗菌薬耐性データのクリーニングと分析を簡素化するツールを提供することで、このギャップを埋めることを目指したRのAMRパッケージについて紹介します。AMRパッケージは、エビデンスに基づくルールの適用、初期分離株の決定、微生物および抗菌剤に関するさまざまなコードの翻訳、(多剤)耐性微生物の決定、抗菌薬耐性、有病率、将来の傾向の計算など、標準化された再現性のある抗菌薬耐性分析を可能にします。AMRパッケージは、ラボ情報システムから独立して機能し、国際的なワークフローに統合するためのいくつかの機能を提供します(例:世界保健機関が提供するWHONETソフトウェア)。
Pathogen.jl: Infectious Disease Transmission Network Modeling with Julia
Pathogen.jl:Juliaによる感染症感染ネットワークモデリング
We introduce Pathogen.jl for simulation and inference of transmission network individual level models (TN-ILMs) of infectious disease spread in continuous time. TN-ILMs can be used to jointly infer transmission networks, event times, and model parameters within a Bayesian framework via Markov chain Monte Carlo (MCMC). We detail our specific strategies for conducting MCMC for TN-ILMs, and our implementation of these strategies in the Julia package, Pathogen.jl, which leverages key features of the Julia language. We provide an example using Pathogen.jl to simulate an epidemic following a susceptible-infectious-removed (SIR) TN-ILM, and then perform inference using observations that were generated from that epidemic. We also demonstrate the functionality of Pathogen.jl with an application of TN-ILMs to data from a measles outbreak that occurred in Hagelloch, Germany, in 1861 (Pfeilsticker 1863; Oesterle 1992).
感染症の感染拡大に関するTN-ILM(Transmission Network Individual Level Model)のシミュレーションと推論のためのPathogen.jlについて紹介します。TN-ILMを使用して、マルコフ連鎖モンテカルロ(MCMC)を介してベイジアン フレームワーク内で伝送ネットワーク、イベント時間、およびモデル パラメーターを共同で推論できます。TN-ILMのMCMCを実施するための具体的な戦略と、Julia言語の主要な機能を活用したJuliaパッケージPathogen.jlでのこれらの戦略の実装について詳しく説明します。ここでは、Pathogen.jlを使用して、SIR(SCEPTIBLE-INFECTIOUS-REMOVED) TN-ILMに続く流行をシミュレートし、その流行から生成された観測値を使用して推論を実行する例を示します。また、1861年にドイツのハーゲロッホで発生した麻疹の流行のデータにTN-ILMを適用して、Pathogen.jlの機能を実証しています(Pfeilsticker 1863;Oesterle 1992)。
calculus: High-Dimensional Numerical and Symbolic Calculus in R
微積分学:Rの高次元数値および記号微積分
The R package calculus implements C++-optimized functions for numerical and symbolic calculus, such as the Einstein summing convention, fast computation of the LeviCivita symbol and generalized Kronecker delta, Taylor series expansion, multivariate Hermite polynomials, high-order derivatives, ordinary differential equations, differential operators and numerical integration in arbitrary orthogonal coordinate systems. The library applies numerical methods when working with functions, or symbolic programming when working with characters or expressions. The package handles multivariate numerical calculus in arbitrary dimensions and coordinates. It implements the symbolic counterpart of the numerical methods whenever possible, without depending on external computer algebra systems. Except for Rcpp, the package has no strict dependencies in order to provide a stable self-contained toolbox that invites re-use.
Rパッケージ計算は、Einstein合計規則、LeviCivita記号と一般化クロネッカーデルタの高速計算、テイラー級数展開、多変量エルミート多項式、高次導関数、常微分方程式、微分演算子、任意の直交座標系での数値積分など、数値計算および記号計算用のC++最適化関数を実装します。このライブラリは、関数を操作するときに数値メソッドを適用し、文字や式を操作するときにシンボリックプログラミングを適用します。このパッケージは、任意の次元と座標の多変量数値計算を処理します。これは、外部のコンピュータ代数システムに依存することなく、可能な限り数値的方法の記号的対応物を実装します。Rcppを除いて、パッケージには、再利用を招く安定した自己完結型のツールボックスを提供するための厳密な依存関係はありません。
Fast Penalized Regression and Cross Validation for Tall Data with the oem Package
oemパッケージを使用した背の高いデータに対する高速ペナルティ付き回帰と交差検証
A large body of research has focused on theory and computation for variable selection techniques for high dimensional data. There has been substantially less work in the big “tall” data paradigm, where the number of variables may be large, but the number of observations is much larger. The orthogonalizing expectation maximization (OEM) algorithm is one approach for computation of penalized models which excels in the big tall data regime. The oem package is an efficient implementation of the OEM algorithm which provides a multitude of computation routines with a focus on big tall data, such as a function for out-of-memory computation, for large-scale parallel computation of penalized regression models. Furthermore, in this paper we propose a specialized implementation of the OEM algorithm for cross validation, dramatically reducing the computing time for cross validation over a naive implementation.
多くの研究は、高次元データの変数選択手法の理論と計算に焦点を当ててきました。変数の数が多いかもしれませんが、観測値の数がはるかに多いという大きな「背の高い」データパラダイムでは、作業が大幅に減少しています。直交期待値最大化(OEM)アルゴリズムは、ペナルティを受けたモデルを計算するための1つのアプローチであり、ビッグ トール データレジームで優れています。OEMパッケージは、ペナルティを受けた回帰モデルの大規模な並列計算のためのメモリ不足計算の関数など、大きな背の高いデータに焦点を当てた多数の計算ルーチンを提供するOEMアルゴリズムの効率的な実装です。さらに、この論文では、クロスバリデーションのためのOEMアルゴリズムの特殊な実装を提案し、単純な実装よりもクロスバリデーションの計算時間を大幅に短縮します。
synthACS: Spatial Microsimulation Modeling with Synthetic American Community Survey Data
synthACS:合成アメリカンコミュニティ調査データによる空間マイクロシミュレーションモデリング
synthACS is an R package that provides flexible tools for building synthetic microdatasets based on American Community Survey (ACS) base tables, allows data-extensibility and enables to conduct spatial microsimulation modeling (SMSM) via simulated annealing. To our knowledge, it is the first R package to provide broadly applicable tools for SMSM with ACS data as well as the first SMSM implementation that uses unequal probability sampling in the simulated annealing algorithm. In this paper, we contextualize these developments within the SMSM literature, provide a hands-on user-guide to package synthACS, present a case study of SMSM related to population dynamics, and note areas for future research.
synthACSは、American Community Survey(ACS)ベーステーブルに基づいて合成マイクロデータセットを構築するための柔軟なツールを提供し、データの拡張性を可能にし、シミュレーテッドアニーリングによる空間マイクロシミュレーションモデリング(SMSM)の実行を可能にするRパッケージです。私たちの知る限り、これはACSデータを使用してSMSMに広く適用可能なツールを提供する最初のRパッケージであり、シミュレーテッドアニーリングアルゴリズムで不等確率サンプリングを使用する最初のSMSM実装でもあります。このホワイトペーパーでは、SMSMの文献内でこれらの開発を文脈化し、パッケージsynthACSの実践的なユーザーガイドを提供し、人口動態に関連するSMSMのケーススタディを提示し、将来の研究のための領域に注意します。
Analyzing Intraday Financial Data in R: The highfrequency Package
Rでの日中財務データの分析:高周波パッケージ
The highfrequency package for the R programming language provides functionality for pre-processing financial high-frequency data, analyzing intraday stock returns, and forecasting stock market volatility. For academics and practitioners alike, it provides a tool chain required to work with such datasets and to conduct statistical analyses dedicated to spot volatility, jumps, realized measures, and many more. We showcase our implemented routines and models on raw high-frequency data from large stock exchanges.
Rプログラミング言語のhighfrequencyパッケージは、金融の高頻度データの前処理、日中の株式リターンの分析、および株式市場のボラティリティの予測のための機能を提供します。学者や実務家にとって、このようなデータセットを操作し、スポットボラティリティ、ジャンプ、実現測定などに特化した統計分析を行うために必要なツールチェーンを提供します。私たちは、大規模な証券取引所からの生の高頻度データに基づいて実装されたルーチンとモデルを紹介します。
BGVAR: Bayesian Global Vector Autoregressions with Shrinkage Priors in R
BGVAR:Rの収縮事前分布を持つベイズ全球ベクトル自己回帰
This document introduces the R package BGVAR to estimate Bayesian global vector autoregressions (GVAR) with shrinkage priors and stochastic volatility. The Bayesian treatment of GVARs allows to include large information sets by mitigating issues related to overfitting. This often improves inference as well as out-of-sample forecasts. Computational efficiency is achieved by using C++ to considerably speed up time-consuming functions. To maximize usability, the package includes numerous functions for carrying out structural inference and forecasting. These include generalized and structural impulse response functions, forecast error variance, and historical decompositions as well as conditional forecasts.
このドキュメントでは、収縮事前確率と確率的ボラティリティを使用してベイズグローバルベクトル自己回帰(GVAR)を推定するためのRパッケージBGVARを紹介します。GVARのベイズ処理により、過学習に関連する問題を軽減することにより、大規模な情報セットを含めることができます。これにより、多くの場合、推論とサンプル外予測が改善されます。計算効率は、C++を使用して時間のかかる関数を大幅に高速化することで実現されます。使いやすさを最大限に高めるために、パッケージには構造推論と予測を実行するための多数の機能が含まれています。これには、一般化インパルス応答関数と構造インパルス応答関数、予測誤差分散、履歴分解、条件付き予測が含まれます。
A Practitioner’s Guide and MATLAB Toolbox for Mixed Frequency State Space Models
混合周波数状態空間モデルのためのプラクティショナーズ・ガイドとMATLABツールボックス
The use of mixed frequency data is now common in many applications, ranging from the analysis of high frequency financial time series to large cross-sections of macroeconomic time series. In this article, we show how state space methods can easily facilitate both estimation and inference in these settings. After presenting a unified treatment of the state space approach to mixed frequency data modeling, we provide a series of applications to demonstrate how our MATLAB toolbox can make the estimation and post-processing of these models straightforward.
混合頻度データの使用は、高頻度の金融時系列の分析からマクロ経済時系列の大きな断面まで、現在、多くのアプリケーションで一般的になっています。この記事では、これらの設定で状態空間法が推定と推論の両方を簡単に促進する方法を示します。混合周波数データ モデリングに対する状態空間アプローチの統一的な扱いを示した後、MATLABツールボックスを使用してこれらのモデルの推定と後処理を簡単にする方法を示す一連のアプリケーションを提供します。
spsur: An R Package for Dealing with Spatial Seemingly Unrelated Regression Models
spsur:空間的な一見無関係な回帰モデルを扱うためのRパッケージ
Spatial seemingly unrelated regression (spatial SUR) models are a useful multiequational econometric specification to simultaneously incorporate spatial effects and correlated error terms across equations. The purpose of the spsur R package is to supply a complete set of functions to test for spatial structures in the residual of a SUR model; to estimate the most popular specifications by applying different methods and test for linear restrictions on the parameters. The package also facilitates the estimation of socalled spatial impacts, conveniently adapted to a SUR framework. The package includes functions to simulate datasets with the features decided by the user, which may be useful in teaching activities or in more general research projects. The article concludes with a real data application showing the potential that spsur has to examine the relation of individual mobility over geographic areas and the incidence of COVID-19 in Spain during the first lockdown.
空間的一見無関係な回帰(空間SUR)モデルは、方程式間で空間効果と相関誤差項を同時に組み込むための便利な多方程式計量経済学仕様です。spsur Rパッケージの目的は、SURモデルの残差の空間構造をテストするための関数の完全なセットを提供することです。さまざまな方法を適用して最も一般的な仕様を推定し、パラメーターの線形制限をテストします。また、このパッケージは、いわゆる空間的影響の推定も容易で、SURフレームワークに便利に適合しています。このパッケージには、ユーザーが決定した特徴量でデータセットをシミュレートする機能が含まれており、教育活動やより一般的な研究プロジェクトに役立つ可能性があります。この記事は、spsurが地理的領域にわたる個人の移動と最初のロックダウン中のスペインでのCOVID-19の発生率との関係を調べる可能性を示す実際のデータアプリケーションで締めくくられています。