概要
Maintainer: | Yuan Tang, James Joseph Balamuta |
Contact: | terrytangyuan at gmail.com |
Version: | 2023-02-23 |
URL: | https://CRAN.R-project.org/view=Databases |
Source: | https://github.com/cran-task-views/Databases/ |
Contributions: | このタスクビューに対する提案や改良は、GitHubのissueやpull request、またはメンテナのアドレスに電子メールで送ってください。詳しくはContributing guideをご覧ください。 |
Installation: | このタスクビューのパッケージは、ctvパッケージを使用して自動的にインストールすることができます。例えば、ctv::install.views(“Databases”, coreOnly = TRUE)は全てのコアパッケージをインストールし、ctv::update.views(“Databases”)はまだインストールしていない全てのパッケージと最新のものをインストールします。詳しくはCRAN Task View Initiativeを参照してください。 |
この CRAN タスクビューには、さまざまなデータベースのアクセシビリティに関連するパッケージのリストが含まれています。データのインポート/エクスポートやデータ管理は含まれていません。さらに、HighPerformanceComputingと MachineLearningのタスクビューは、有用な情報を提供するかもしれません。
データセットが大きくなるにつれて、スプレッドシート、生のテキストファイルなどの従来のファイル形式でデータセットを保存することは不可能になります。これはストレージが限られているデバイスには適さず、共同作業者間で簡単に共有できません。代わりに、今日の人々はよりスケーラブルで信頼性の高いデータ管理のためにデータベースにデータを保存する傾向があります。
データベースシステムは、サポートしているdatabase modelsに基づいて分類されることがよくあります。Relational databasesは、1980年代に支配的になりました。リレーショナルデータベースのデータは、データの書き込みとクエリのロジックを表現するためにSQLを使用して、一連のテーブルの行と列としてモデル化されます。テーブルはリレーショナルです。あなたのソフトウェアを使っているユーザーがいます。これらのソフトウェアには作成者と貢献者がいます。非リレーショナルデータベースは、クエリ言語としてNoSQLを使用して非構造化データを格納するという大きな需要のために、近年人気が出てきました。通常、ユーザーはデータスキーマを事前に定義する必要はありません。アプリケーションに変化する要件がある場合は、非リレーショナルデータベースの方がはるかに使いやすく、管理も簡単です。
このタスクビューで提示される内容は、産業界や学術界で急速に変化しています。何か提案があれば、メンテナにメールで送るか、上記のリンク先のGitHubリポジトリにイシューやプルリクエストを提出してください。他の方からの提案や修正は、すべてありがたくお受けします。
リレーショナルデータベース
このセクションには、R内のリレーショナルデータベースへのアクセスを提供するパッケージが含まれています。
- DBIは、Rとリレーショナルデータベース管理システム間の通信のためのデータベースインターフェース定義を提供します。注目すべきは、いくつかのパッケージはこのインターフェース定義(DBI準拠)に従おうとしますが、多くの既存のパッケージは従わないということです。
- RODBCは、ODBCインターフェースを介してデータベースへのアクセスを提供します。
- RMariaDBは、MariaDBおよびMySQLへのDBI準拠のインターフェースを提供します。
- RMySQLは、MySQLへのインターフェースを提供します。これはS-PLUSから移植された古いコードに基づくMySQLとMariaDBへのレガシーDBIインターフェースです。Rcppをベースにした最新のMySQLクライアントは、上記のRMariaDBパッケージから入手できます。
- オープンソースのリレーショナルデータベースであるPostgreSQL用のパッケージ:
- RPostgreSQLとRPostgresはどちらも、PostgreSQLへの完全にDBI準拠のRcppベースのインターフェースを提供します。
- rpostgisは、その空間的拡張PostGISへのインターフェースを提供します。
- RGreenplumは、PostgreSQL上にオープンソースの並列データベースであるGreenplumへの完全にDBI準拠のインターフェースを提供します。
- ROracleは、OCIに基づくDBI準拠のOracle databaseドライバです。
- SQLite、自己完結型、高信頼性、組み込み、フル機能、パブリックドメイン、SQLデータベースエンジン用のパッケージ:
- RSQLiteは、RにSQLiteデータベースエンジンを組み込み、DBIパッケージに準拠したインターフェースを提供します。
- filehashSQLiteは、バックエンドとしてSQLiteを使用した単純なKey-Valueデータベースです。
- liteqは、SQLiteの上に構築された、R用の一時的および永続的なメッセージキューを提供します。
- duckdbは、インプロセスSQLのOLAPデータベース管理システムであるDuckDbへのDBIインターフェースを提供します。
- bigrqueryは、Googleの完全管理型、ペタバイト規模、低コストの分析データウェアハウスであるGoogle BigQueryへのインターフェースを提供します。
- RDruidは、イベント駆動型データ用の高性能分析データストアであるApache Druidへのインターフェースを提供します。
- RH2は、JavaデータベースであるH2 Database Engineへのインターフェースを提供します。
- influxdbrは、大量の書き込みやクエリの負荷を処理するために設計された時系列データベースであるInfluxDBへのインターフェースを提供します。
- odbcは、Open Database Connectivity (ODBC)のドライバへのDBI準拠のインターフェースを提供します。これは、特にリレーショナルデータストア用に設計された、低レベルの高性能インターフェースです。
- RPrestoは、ギガバイトからペタバイトまでのあらゆるサイズのデータソースに対してインタラクティブな分析クエリを実行するための、オープンソースの分散SQLクエリエンジンであるPrestoへのDBI準拠のインターフェースを実装しています。
- RJDBCは、バックエンドとしてJDBCを使用するRのDBIインターフェースの実装です。これにより、RはJDBCドライバーを持つすべてのDBMSに接続できます。
- implyrは、Apache Impalaのバックエンドを提供します。これは、次に格納されたデータに対する低遅延のSQLクエリを可能にします。
- Hadoop Distributed File System (HDFS)
- Apache Hbase
- Apache Kudu
- Amazon Simple Storage Service (S3)
- Microsoft Azure Data Lake Store (ADLS)
- Dell EMC Isilon
- dbxは、DBIの上にSQLを記述せずに、高性能のバッチ操作と安全な挿入/更新/削除のための直感的な機能を提供します。研究環境と本番環境の両方向けに設計されており、Postgres、MySQL、MariaDB、SQLiteなどの複数のデータベースバックエンドをサポートしています。
- sparklyrは、Apache Spark DataFramesへのdplyrインターフェースと、Sparkの分散型機械学習パイプラインへのRインターフェースを提供します。
- Hmiscは、mdbtoolsユーティリティを使用してUnixライクなシステム上のMicrosoft Accessデータベースから読み込むためのラッパー関数Hmisc::mdb.get()を提供しています。
- DatabaseConnectorは、JDBCまたはDBIドライバを使用して、さまざまなデータベースプラットフォームへのDBI互換インターフェースを提供します。
非リレーショナルデータベース
このセクションには、R内の非リレーショナルデータベースへのアクセスを提供するパッケージが含まれています。
- データベース、キャッシュ、およびメッセージブローカーとして使用できる、オープンソースのインメモリデータ構造ストアRedis用のパッケージ:
- オープンソースのRESTfulな分散検索および分析エンジンであるElasticsearchのパッケージ:
- elasticは、Elasticsearchへの汎用インターフェースを提供します。
- uptasticsearchは、データサイエンスワークフローに合わせたElasticsearchクライアントです。
- mongoliteは、mongo-c-driverをベースにした高水準・高パフォーマンスなMongoDBクライアントを提供し、集約、インデックス作成、マップリダクション、ストリーミング、SSL暗号化、SASL認証をサポートしています。
- mongoliteは、mongo-c-driverをベースにした高水準・高パフォーマンスな MongoDBクライアントを提供し、集約、インデックス作成、マップリダクション、ストリーミング、SSL 暗号化、SASL 認証をサポートしています。
- R4CouchDBは、CouchDBの基本的なデータベースと文書管理操作のための機能のコレクションを提供します。
- 高速で柔軟なNoSQLデータベースAmazon DynamoDB用パッケージ
- rrocksdbは、RocksDBへのアクセスを提供します。
データベースツール
このセクションには、データベースの操作やテスト、データベーステーブルの操作などのためのツールを提供するパッケージが含まれています。
- MSSQLは、RODBCパッケージの機能を拡張し、Microsoft SQL Serverデータベースで動作するようにしたものです。データベースをブラウズし、個々のテーブルやビューを調べることが容易になります。
- poolを使用すると、オブジェクトプールを作成できます。これにより、新しいオブジェクトをフェッチするための計算量が少なくなります。
- DBItestは、インターフェースへの適合性についてDBIバックエンドをテストするヘルパーです。
- dbplyrは、データベース用のdplyrバックエンドであり、リモートデータベーステーブルをインメモリデータフレームのように扱うことができます。基本機能は、DBIバックエンドを持つすべてのデータベースで機能します。より高度な機能を使用するには、パッケージ作成者がSQL変換を提供する必要があります。
- sqldfは、SQLを使用してRデータフレームを操作するための機能を提供します。
- pointblankは、PostgreSQLやMySQLなどのデータベース内のデータテーブルを検証するためのツールを提供します。
- dittodbは、あらゆるDBI準拠のデータベースバックエンドとのデータベース相互作用をテストするための機能を提供します。テスト中にデータベースを直接呼び出す代わりにフィクスチャを使用する機能や、 実際のデータベースとやりとりする際にフィクスチャを記録して後でのテストで使用する機能が含まれています。
- tfioは、ハイパフォーマンスコンピューティングのための分散データベース管理をインメモリで高速に処理するApache Igniteを使用する機能を提供します。
- GitHubにあるdbrは、YAML設定ファイルとテンプレートを使ってRから便利なデータベース接続とクエリを提供します。
- rockerは、DBIをバックエンドとするリレーショナルデータベース接続を処理するためのR6クラスのインターフェースを提供します。目的は、SQLデータベースを簡単に扱える直感的なオブジェクトを持つことです。
- SQRLは、ODBCデータベース上での探索的・対話的セッションを効率化し、SQLスクリプト内でRコードを使用できるようにします。