確認日: | 2024/11/01 |
データセット数: | 650 |
このデータセットには、メキシコ、ペルー、コロンビアの国々の個人の食習慣と体調から肥満度を推定するためのデータが含まれています。
CMUのStatLibライブラリから修正、データは都市サイクルの燃料消費に関するものです。
このデータセットには、キャピタルのバイクシェアシステムにおける2011年から2012年までのレンタルバイクの1時間ごとの数と1日ごとの数、および対応する天候と季節の情報が含まれています。
電子メールをスパムまたは非スパムとして分類します
2年間の実在するオンライン小売の取引データセット。
データは、大気圏チェレンコフ望遠鏡での高エネルギーガンマ粒子のレジストレーションをシミュレートするために生成されたMCです。
オリジナルのウィスコンシン乳癌データベース
この乳がんドメインは、ユーゴスラビアのリュブリャナにあるUniversity Medical Centre, Institute of Oncologyから入手しました。これは腫瘍学研究所から提供された3つのドメインのうちの1つで、機械学習の文献に繰り返し登場しています。(リンパ造影と原発腫瘍も参照)。
1世帯の電力消費量を1分間のサンプリングレートで約4年間にわたって測定。さまざまな電気量と一部のサブメータリング値が利用可能です。
SMSスパムコレクションは、携帯電話のスパム研究のために収集されたSMSラベル付きメッセージの公開セットです。
データセットの12,330セッションのうち、84.5% (10,422)はショッピングで終わらなかったネガティブクラスのサンプルで、残りのサンプル (1908)はショッピングで終わったポジティブクラスのサンプルでした。
Diabetes Health Indicators Datasetには、糖尿病の診断名とともに、一般の人々に関する医療統計とライフスタイル調査情報が含まれています。35の特徴は、各患者のいくつかの人口統計、検査結果、調査質問への回答から構成されています。分類の対象変数は、患者が糖尿病であるか、糖尿病予備軍であるか、健康であるかです。
国勢調査データに基づいて、収入が年間50Kドルを超えるかどうかを予測します。アダルトデータセットとも呼ばれます。
このデータは、クレジットカードのアプリケーションに関するものです。
ポルトガル北東部地域の森林火災の焼失面積を気象データなどを用いて予測するという難しい回帰課題(詳細はhttp://www.dsi.uminho.pt/~pcortez/forestfiresを参照)。
2つの種について合計3810個のイネ粒の画像が撮影され、処理され、特徴の推論が行われました。イネの各粒について7つの形態学的特徴が得られた。
このデータセットには、追跡期間中に収集された心不全の 299 人の患者の医療記録が含まれており、各患者プロファイルには 13 の臨床的特徴があります。
Garavan Institute からの 10 の個別のデータベース
不動産評価は回帰問題です。不動産評価の市場履歴データセットは、台湾の新北市のSindian Dist.から収集されています。
このデータセットは、米国の130の病院および統合されたデリバリーネットワークでの10年間(1999-2008年)の臨床ケアを表しています。各行は、糖尿病と診断され、検査と投薬を受け、最長14日間滞在した患者の病院記録に関するものです。目標は、退院後30日以内に患者の早期再入院を決定することです。この問題は、次の理由で重要です。糖尿病患者がさまざまな予防的・治療的介入を受けた場合、臨床アウトカムの改善を示す質の高いエビデンスがあるにもかかわらず、多くの患者がそれらを受けていない。これは、病院環境での恣意的な糖尿病管理に部分的に起因している可能性があり、血糖コントロールに注意を払っていません。適切な糖尿病治療を提供しないと、(患者が再入院するため)病院の管理コストが増加するだけでなく、糖尿病に関連する合併症に直面する可能性のある患者の罹患率と死亡率にも影響を及ぼします。
米国科学捜査局より。 ガラスの種類は6種類。 酸化物含有量(つまり、Na、Fe、Kなど)の観点から定義されます。
このデータベースには 2 つのバージョンがあります。 フォルダを参照
このデータセットは、卸売業者の顧客を対象としています。このデータセットには、様々な製品カテゴリーの年間支出額(金額単位(m.u.))が含まれています。
このデータセットは慢性腎臓病の予測に使用でき、約2ヶ月間の病院から収集することができます。
3種類の小麦に属する穀粒の幾何学的特性の測定。軟X線法とGRAINSパッケージを使用して、7つの実数値属性すべてを構築しました。
ソウル市内の各時間帯にレンタルされている公共自転車の台数と、それに対応する天気情報、祝日情報を収録しています。
この研究では、建物のパラメータの関数として、建物の暖房負荷と冷房負荷の要件(つまり、エネルギー効率)を評価することを検討した。
コンクリートは土木工学において最も重要な材料です。コンクリートの圧縮強度は、経年変化や成分の非線形性が高い。
AI4I 2020 Predictive Maintenance Datasetは、産業界で遭遇する実際の予測メンテナンスデータを反映した合成データセットです。
人工、7つのクラスの動物
オックスフォード・パーキンソン病検出データセット
このデータセットには370点/顧客の電力消費量が含まれています。
肺がんデータ;属性定義なし
このデータは、2019 年に工学部と教育科学部の学生から収集されたものです。目的は、ML 技術を使用して学生の学期末の成績を予測することです。
低エネルギービルでの家電製品のエネルギー使用量の回帰モデルを作成するために使用された実験データ。
これは、アメリカの賃貸アパートのために分類されたデータセットです。
標高、傾斜方向、傾斜角、陰影起伏、土壌タイプなどの属性に基づいて、ピクセルを 7 つの森林被覆タイプに分類します。
このデータセットは主に以下から収集されました:PhishTankアーカイブ、MillerSmilesアーカイブ、Googleの検索オペレーター。
CPUの相対的な性能データで、サイクルタイムやメモリサイズなどで記述されています。
疾患別に分類されたデータの中から、疾患別に分類されたデータを選択することができます。
KecimenレーズンとBesniレーズンの品種の画像はCVSで取得されました。両品種のレーズン450種を含む合計900種のレーズンを使用し、7種類の形態学的特徴を抽出した。
このデータセットは、2年間の期間にMashableによって公開された記事に関する特徴の異質なセットを要約したものです。目的は、ソーシャルネットワークでのシェア数(人気度)を予測することです。
文字画像の特徴をデータベース化したもので、文字の識別を試みます
G.Gongより。CMU; ほとんどがブール値または数値属性型; コストデータを含む (Peter Turney氏寄贈)
データは、紙幣の認証手続きの評価のために撮影された画像から抽出されました。
米国内のコミュニティ。このデータは、1990年の米国国勢調査による社会経済データ、1990年の米国LEMAS調査による法執行データ、1995年のFBI UCRによる犯罪データを組み合わせたものです。
このデータセットには、手作業で収集され、業界の専門家によって検証された衣料品製造プロセスの重要な属性と従業員の生産性が含まれています。
このデータセットには、新しく糖尿病になった患者、または糖尿病になりそうな患者のサインと徴候のデータが含まれています。
このデータセットには、複合サイクル発電所が全負荷で動作するように設定された6年間(2006年~2011年)に渡って収集された9568点のデータが含まれています。
このデータセットは、特定の医薬品に関する患者レビューと関連する条件、および患者の総合的な満足度を反映した10つ星の患者評価を提供します。
このデータセットは,インターネットページに掲載されている可能性のある広告の集合を表しています.
これは、調査回答者が1年間に受診する医師の数を予測する機械学習アルゴリズムを開発・検証するためにフィルタリングされたNPHAデータセットのサブセットです。このデータセットのレコードは、NPHAの調査に回答した高齢者です。
データセットには、肯定的または否定的な感情がラベル付けされた文章が含まれています。
電離層からのレーダーリターンの分類
性格データから薬物消費者のタイプを分類
RT-IoT2022は、リアルタイムIoTインフラから得られた独自のデータセットであり、多様なIoTデバイスと洗練されたネットワーク攻撃手法を統合した包括的なリソースとして導入されています。このデータセットには、正常なネットワーク動作と敵対的なネットワーク動作の両方が含まれており、実世界のシナリオを一般的に表現しています。ThingSpeak-LED、Wipro-Bulb、MQTT-TempなどのIoTデバイスからのデータと、ブルートフォースSSH攻撃、HpingとSlowlorisを使用したDDoS攻撃、Nmapパターンを含むシミュレートされた攻撃シナリオを組み込んだRT-IoT2022は、ネットワーク・トラフィックの複雑な性質に関する詳細な視点を提供します。ネットワーク・トラフィックの双方向属性は、Zeekネットワーク・モニタリング・ツールとFlowmeterプラグインを使用して詳細にキャプチャされます。研究者はRT-IoT2022データセットを活用して侵入検知システム(IDS)の機能を向上させ、リアルタイムIoTネットワーク向けの堅牢で適応性の高いセキュリティ・ソリューションの開発を促進することができます。
WESAD (Wearable Stress and Affect Detection)には、生理学的センサーとモーションセンサーを装着した状態でのストレス影響ラボ研究中の15人の被験者のデータが含まれています。
本研究では、金属製の円筒から跳ね返ったソナー信号と、大まかな円筒状の岩から跳ね返ったソナー信号を識別するためのネットワークを訓練することを課題としています。
心筋梗塞の合併症の予測
オックスフォード・パーキンソン病テレモニタリング・データセット
米国疾病予防管理センター(CDC)が実施する国民健康栄養調査(NHANES)は、米国の多様な人口から広範な健康と栄養に関する情報を収集しています。広範なデータセットではあるが、特定の分析目的には広すぎることが多い。このサブデータセットでは、大規模なNHANESデータセットから特徴のサブセットを抽出することにより、回答者の年齢を予測することに焦点を絞ります。これらの選択された特徴には、年齢と強い相関があると仮定された生理学的測定値、ライフスタイルの選択、および生化学マーカーが含まれます。
AIDS Clinical Trials Group Study 175 Datasetには、AIDSと診断された患者に関する医療統計とカテゴリー情報が含まれています。このデータセットは1996年に発表された。予測課題は、各患者がある時間内に死亡したか否かを予測することです。
チックタックトゥゲームの可能な構成に関する二項分類課題
データは、IoT ベースのリスク監視システムを通じて、バングラデシュの農村部のさまざまな病院、地域の診療所、妊産婦医療から収集されています。
ここでは、他の水測定指標の履歴データである入力データに基づいて、翌日の「水素の力(pH)」の値の観点から時空間の水質を予測したいと思います。入力データは、36サイトの毎日のサンプルで構成され、米国ジョージア州のpH値に関連する測定値を提供します。入力フィーチャは、溶存酸素の量、温度、比コンダクタンスを含む 11 の一般的な指標で構成されています (データセットの詳細を参照)。予測する出力は、「pH、水、ろ過なし、フィールド、標準単位(中央値)」の測定値です。 考慮すべき2つの主要な水道システムがあります:1つはアトランタ市を中心とし、もう1つはジョージア州の東海岸を中心としています。この情報は、予測にとって重要なさまざまな場所間の空間依存性を示します。データの説明の詳細については、README.docx という名前のファイルを参照してください。 「比コンダクタンス、水、ろ過なし、摂氏25度でマイクロジーメンス/センチメートル(最大)」「pH、水、ろ過なし、フィールド、標準単位(最大)」「pH、水、ろ過なし、フィールド、標準単位(最小)」「比コンダクタンス、水、ろ過なし、摂氏25度でマイクロジーメンス/センチメートル(最小)」「比コンダクタンス、水、ろ過なし、摂氏25度でマイクロジーメンス/センチメートル(平均)」「溶存酸素、水、ろ過なし、ミリグラム/リットル(最大)」「溶解酸素、水、ろ過なし、ミリグラム/リットル(平均)」「溶存酸素、水、ろ過なし、ミリグラム/リットル(最小)」「温度、水、摂氏(平均)」「温度、水、摂氏(最小)」「温度、水、摂氏(最大)」。
このデータセットは、イランの通信会社のデータベースから12ヶ月間に渡ってランダムに収集したものです。
アルコール消費率の増加、慢性肝炎感染症、肥満関連の肝疾患などにより、肝硬変による死亡は増加の一途をたどっています。この病気の死亡率が高いにもかかわらず、肝疾患はすべての亜集団に等しく影響を与えるわけではありません。病理の早期発見は患者の転帰の決定要因ですが、肝臓の病理の早期診断に関しては、女性患者は疎外されているようです。このデータセットは、インドのアンドラプラデーシュ州北東部から収集された584人の患者記録で構成されています。予測課題は、アルブミンや代謝に必要な他の酵素を含むいくつかの生化学的マーカーに関する情報に基づいて、患者が肝臓病に罹患しているかどうかを判断することです。
肝硬変患者の生存状態を予測するために17の臨床的特徴を利用します。生存状態には、0 = D(死亡)、1 = C(打ち切り)、2 = CL(肝移植による打ち切り)が含まれます。
心臓不整脈の有無を区別し、16のグループのいずれかに分類します。
運用中の地下鉄列車から、コンプレッサーの空気生産ユニット(APU)から、圧力、温度、モーター電流、吸気弁の測定値が収集された。このデータセットは、業界で実際に遭遇する予知保全の課題を明らかにする。故障予測、異常の説明、その他の作業に使用することができます。
食用と有毒に二値分類するためのシミュレートされたキノコのデータセット。
タンパク質の細胞内局在部位の予測
データセットには、献血者とC型肝炎患者の検査値と年齢などの人口統計学的な値が含まれています。
このデータは、アルコール依存症の遺伝的素因の脳波相関を調べるための大規模な研究から生まれました。256Hzでサンプリングされた頭皮に設置された64個の電極からの測定値が含まれています。
地中に埋設された地雷の検出は、生命と財産の安全の観点から非常に重要です。この点に関しては多くの異なる方法が用いられてきたが、100%の成功を収めることはまだ不可能です。地雷探知プロセスは、センサー設計、データ分析、判断アルゴリズムのフェーズから構成されます。磁気異常法は、磁場中の物体がその構造である磁場を乱すことによって生じる異常を測定するという原理に従って動作し、この時点で得られたデータは、動きや位置などの条件を決定するために使用されます。磁気異常を利用した位置や深さ、進行方向などのパラメータの決定は1970年から行われています。
このデータセットは、子宮頸がんの指標/診断の予測に焦点を当てています。特徴は、人口統計学的情報、習慣、および過去の医療記録をカバーしています。
データベースは、2007年7月から2010年7月までのブラジルの宅配便会社での欠勤の記録から作成された。
神経膠腫は脳の最も一般的な原発性腫瘍です。これらは組織学的/画像的基準により、LGG(低悪性度グリオーマ)またはGBM(多形膠芽腫)に分類されます。臨床的因子および分子/変異因子もまた、悪性度判定プロセスにおいて非常に重要です。分子検査は、神経膠腫患者の正確な診断に役立つ高価な検査です。このデータセットでは、TCGA-LGGおよびTCGA-GBM脳グリオーマプロジェクトから、最も変異頻度の高い20の遺伝子と3つの臨床的特徴が考慮されています。予測タスクは、与えられた臨床的特徴および分子/変異特徴を持つ患者がLGGかGBMかを決定することです。主な目的は、パフォーマンスを向上させコストを削減するために、神経膠腫の等級付けプロセスに最適な変異遺伝子と臨床的特徴のサブセットを見つけることです。
このデータセットのタスクは、近隣の場所の過去の交通量とその他の特徴に基づく時空間的な交通量の予測です。
保育園データベースは、元々は保育園の願書をランク付けするために開発された階層的な意思決定モデルから派生したものですが、現在では、保育園の願書をランク付けするために開発された階層的な意思決定モデルを利用しています。
慢性腎臓病 (CKD) は、腎能力の生産性を低下させ、その後腎臓に損傷を与える医学的問題として増加しています。
このデータセットは、すでにリポジトリに存在するデータベース(心臓病データベース)に似た心臓病データベースですが、少し違った形をしています。
データセットには,妊婦向けの衣料品を提供するオンラインストアのクリックストリームの情報が含まれている.
PhiUSIILフィッシングURLデータセットは134,850の正当なURLと100,945のフィッシングURLからなる膨大なデータセットです。データセットを構築する際に分析したURLのほとんどは最新のURLです。特徴はウェブページとURLのソースコードから抽出されます。CharContinuationRate、URLTitleMatchScore、URLCharProb、TLDLegitimateProbなどの特徴は既存の特徴から派生したものです。
100人のボランティアがWHOの2010年基準に従って分析された精液サンプルを提供。精子の濃度は、社会統計学的データ、環境要因、健康状態、生活習慣と関連しています。
データは 1999 年から 2009 年までの台湾経済誌から収集した。会社の倒産は、台湾証券取引所の業務規定に基づいて定義されています。
このデータセットの目的は、Eryhemato-Squamous Diseaseの種類を決定することです。
東アジア全域で言及されている10のカテゴリーの目的地についてのレビュー。各旅行者の評価は、Excellent(4)、Very Good(3)、Average(2)、Poor(1)、Terrible(0)とマッピングされ、平均評価が使用されています。
このレポジトリには、2016年から2021年の間にドイツのレーゲンスブルクにあるChildren’s Hospital St.Hedwigに腹痛で入院した虫垂炎が疑われる小児患者のコホートのデータが保存されています。各患者は、(潜在的に複数の)超音波(US)画像、別名ビュー、専門家が手作業で抽出した臨床検査、身体検査、スコアリング結果および超音波所見からなる表データ、および3つのターゲット変数、すなわち診断、管理および重症度を有します。
1984年米国議会投票記録;共和党または民主党に分類
TCGA Kidney Cancers Datasetは、3つの異なるサブタイプの腎臓がんと診断された患者のトランスクリプトーム・プロファイルを含むバルクRNA-seqデータセットです。このデータセットは、正規化されたトランスクリプトーム・プロファイル・データから、腎臓癌の特定のサブタイプについて予測を行うために使用することができます。
目的はポーカーハンドの予測
このファイルは、クレジットカードの申請に関するものです。このデータベースは、リポジトリ内の別の場所に存在しています(Credit Screening Database)。
赤外線サーモグラフィ温度データセットには、患者について推定された画像の様々な場所から読み取られた温度が含まれており、各個人について測定された口腔内の温度も追加されています。33の特徴量は、性別、年齢、民族、周囲温度、湿度、距離、赤外線画像から読み取ったその他の温度から構成されています。このデータセットは、環境情報と熱画像の測定値を用いて口腔内温度を予測する回帰タスクに使用されます。
このデータセットには、高分化甲状腺癌の再発を予測することを目的とした13の臨床病理学的特徴が含まれています。データセットは15年間収集され、各患者は少なくとも10年間追跡されました。
この1時間ごとのデータセットは、北京の複数の地点における6つの主要な大気汚染物質と6つの関連する気象変数を考慮しています。
DARWINデータセットには、174人の参加者の手書きデータが含まれている。分類タスクは、アルツハイマー病患者と健常者を区別することである。
天秤秤体重・距離データベース
温度、光、音、CO2、PIRなどの複数の非侵入型環境センサーを使用して、部屋の正確な占有者数を推定するためのデータセット。
ウィスコンシン州の乳がんデータベースの予後
データセットには、アルジェリアの2つの地域のデータを再グループ化した244のインスタンスが含まれている。
このデータセットは、ポーランド企業の倒産予測に関するもので、2000年から2012年の間に倒産した企業を分析し、2007年から2013年の間に事業を継続している企業を評価しています。
このデータセットは、1989年から1991年、1992年から1994年にかけて収集された、米国の5つの医療センターにおける9105人の重症患者からなる。それぞれの行は、急性呼吸不全、慢性閉塞性肺疾患、うっ血性心不全、肝疾患、昏睡、結腸癌、肺癌、悪性腫瘍を伴う多臓器不全、敗血症を伴う多臓器不全という9つの疾患分類の包含基準および除外基準を満たした入院患者記録に関するものです。目標は、いくつかの生理学的、人口統計学的、および疾患の重症度情報に基づいて、これらの患者の2ヵ月および6ヵ月の生存率を決定することです。この研究は、終末期間近に患者がコントロール不能に陥ることに対する国民的な関心の高まりに対応するものであり、重要な問題である。これにより、機械的で苦痛に満ちた、長引く臨終の頻度を減らすための、より早い決断と計画が可能になります。
I-94西行きのMN州ミネアポリス-セントポール間の1時間ごとの交通量。2012年から2018年までの天候と休日の特徴を含む。
各クラス属性は、24時間以内に発生したあるクラスの太陽フレアの数をカウントしています。
このデータセットは、人気のある商品比較プラットフォームであるPriceRunnerから収集された。このデータセットには、306の異なるマーチャントによって提供された、10のカテゴリーからの35311の商品オファーが含まれています。このデータセットは、分類、クラスタリング、およびエンティティマッチングアルゴリズムを評価するための理想的な場を提供します。このデータセットには商品関連のデータが含まれているが、テキスト/ショートテキストマイニングを含むあらゆる問題に適用することができます。
このデータセットは、専門家である産科医によって分類されたカルジオトコグラム上の胎児心拍数(FHR)と子宮収縮(UC)の特徴の測定値で構成されています。
このデータセットには、多くの古い映画、奇抜な映画、カルト映画を含む10000本以上の映画のリストが含まれています。俳優、キャスト、監督、プロデューサー、スタジオなどの情報があります。
乳がん患者64人と健常対照52人について、臨床的特徴が観察または測定されました。
PAMAP2身体活動モニタリングデータセットは、3つの慣性計測ユニットと心拍数モニターを装着した9人の被験者によって実行された18種類の身体活動のデータを含んでいます。
このデータは、異なる運転シナリオにおいて、ある人が勧められたクーポンを受け入れるかどうかを研究したものです。
台湾・新竹市の輸血サービスセンターのデータ–これは分類上の問題です。
半導体製造工程のデータ
52週間の製品を対象とした800の週間購入量が含まれています。正規化された値も提供されています。
MHEALTH (Mobile Health) データセットは、マルチモーダルボディセンシングに基づく人間の行動分析技術をベンチマークするために考案されました。
飲酒の多さを検出します。大学のバークロールからの加速度計と経皮吸収型アルコール含有量データ。モバイルデータを介した大量飲酒エピソードの予測に使用。
このデータには、タンパク質の局在部位が含まれています。
データセットは、8人の被験者がそれぞれのスタイルで5分間行った19の日常活動とスポーツ活動のモーションセンサーデータから構成されています。5台のXsens MTxが胴体、腕、脚に使用されています。
有名な化粧品ブランドのFacebookページのパフォーマンス指標。
高レベルの数値属性、7つのクラスで記述された画像データ
このデータセットは、公開されているボットネットのデータセットの不足、特にIoTのためのものです。それは、MiraiとBASHLITEによって真正に感染した9つの商用IoTデバイスから収集された*本物の*トラフィックデータを示唆しています。
ミハエルスキーの有名な大豆の病気データベース
波力エネルギーは、地球温暖化と気候変動という課題に対処するための大きな可能性を秘めた、急速に進歩する有望な再生可能エネルギー源です。しかしながら、大規模な波力発電所におけるエネルギー出力の最適化は、波力変換器(WECs)間の流体力学的相互作用を考慮するために必要な高価な計算のために、複雑な問題を提示しています。これらの課題を克服するためには、高速で正確なサロゲートモデルを開発することが重要です。このような観点から、我々は、49台と100台のWECを含む54,000台と9,600台の構成、調整、出力、qファクター、およびファームの総出力を含む広範なWECデータセットを編集しました。このデータセットは、GECCO会議で発表され、名誉ある最優秀論文賞を受賞した研究に由来します。この研究を実施するにあたり、アデレード大学フェニックスHPCサービスの支援を感謝したい。詳細は以下のリンクを参照されたい: https://dl.acm.org/doi/abs/10.1145/3377930.3390235.
CoIL 2000チャレンジで使用されたこのデータセットには、保険会社の顧客に関する情報が含まれています。データは86の変数で構成され、製品使用データと社会統計学的データが含まれています。
データセットは60日間に渡って収集され、これはブラジルの物流会社の実在のデータベースです。
10人の健康な被験者から、3つの歩行条件(装具なし、膝装具あり、足首装具あり)で収集した、両側(左、右)の関節角度(足首、膝、股関節)の時系列データ。各条件において、各被験者のデータは連続した10回の歩行サイクルから構成される。
このデータは、RNA-Seq(HiSeq)PANCANデータセットの一部であり、異なるタイプの腫瘍を持つ患者の遺伝子発現をランダムに抽出したものです。BRCA、KIRC、COAD、LUADおよびPRAD。
これは、ヒッグス粒子を生成するシグナルプロセスと生成しないバックグラウンドプロセスを区別するための分類問題です。
ウェブサイトのフィッシング
タイのファッションと化粧品の小売店10社のフェイスブックページ。異なる性質の投稿(動画、写真、ステータス、リンク)。エンゲージメント指標は、コメント、シェア、リアクションで構成されています。
成人の自閉症スペクトラム障害スクリーニングデータ。このデータセットは分類と予測タスクに関連しています。
このデータセットは、姓名を性別に属性付けし、カウントと確率を与えています。これは、米国、英国、カナダ、オーストラリアのオープンソースの政府データを組み合わせたものです。
データは、韓国のスマート小規模鉄鋼産業から収集されています。
このデータセットは、モロッコ北部に位置するテトゥアン市の 3 つの異なる配電ネットワークの電力消費に関連しています。
鋼板の欠陥を7種類に分類したデータセット。自動パターン認識のための機械学習を訓練することを目的とした。
データセットは、14個の脳波値と眼の状態を示す値で構成されています。
良い債権700件、悪い債権300件を20個の予測変数を持つ。1973年から1975年までのデータ。実際のクレジットから層別化したサンプルで、不良クレジットが大きくオーバーサンプリングされている。コスト行列が使用できます。
整形外科患者を3つのクラス(正常、椎間板ヘルニアまたは脊椎骨)または2つのクラス(正常または異常)に分類するために使用される6つの生体力学的特徴の値を含むデータセット。
分散型スマートグリッド制御の概念を導入した4ノードスターシステム(発電者が中心)の局所安定性解析。
KDD-99との共催で開催された第3回国際知識発見・データマイニングツールコンペティションで使用されたデータセットです。
この研究で使用されたデータは、年齢が33歳から87歳(65.1±10.9)までのPD患者188人(男性107人、女性81人)から収集された。
このデータセットには、欧州宇宙機関のSentinel-1AおよびSentinel-1Bミッションから取得された様々な洪水事象の合成開口レーダー(SAR)ラスター画像が含まれており、米国とバングラデシュの地理的関心領域にまたがるCバンド2偏波画像が提供されている。比較的静止した平坦な水面でレーダー信号が鏡面反射するため、後方散乱が減少し、振幅が小さくなり、画像内が全体的に暗く見える開放水域のラベリングに主眼が置かれた。水面反射率のラベルは、SARソースラスター画像と整列されたシーンのGeoTiffラスター化ファイル形式でも提供される。
このコレクションには、2つの地上オゾンレベルデータセットが含まれています。1つは8時間のピークデータ(eighhr.data)、もう1つは1時間のピークデータ(onehr.data)です。これらのデータは、1998年から2004年までヒューストン、ガルベストン、ブラゾリア地域で収集されました。
この1時間ごとのデータセットには、北京の米国大使館のPM2.5データが含まれています。一方、北京首都国際空港の気象データも含まれています。
このデータは、ポーズ(まっすぐ、左、右、上)、表情(中性、嬉しい、悲しい、怒っている)、目(サングラスをかけているかどうか)、大きさを変えて撮影した640枚の白黒顔画像から構成されています。
よく文書化された属性;28の属性(連続、離散、名目)を持つ368のインスタンス;30%の欠落値
製造工程は、ここ数十年で飛躍的な技術進歩を遂げている。産業界における俊敏な哲学に対応するため、データ駆動型アルゴリズムは、特にコンピュータ数値制御機械加工において、増大する複雑性を処理する必要があります。実世界のアプリケーションにおける機械学習のスケーラビリティを高めるために、本稿では加速度データに基づくブラウンフィールドフライス盤のプロセスモニタリングのためのベンチマークデータセットを提示します。データは、スマートデータ収集システムを用いて、現実の生産工場から2年間にわたって収集されたものです。本研究では、エッジ・ツー・クラウドのセットアップに続いて、様々な正常・異常プロセスの広範な説明を行います。データセットの分析により、環境や産業要因によって引き起こされる産業における機械学習の課題が浮き彫りになります。新しいデータセットは本論文と共に発表され、https://github.com/boschresearch/CNC_Machining。
米国株式市場のヒストリカルデータベースから、混合設計を用いて加重採点株式ポートフォリオのパフォーマンスのデータセットを取得しました。
このデータセットは、複数のセンサデータに基づいた油圧試験装置の状態評価に対応しています。4つの断層タイプが重畳されており、いくつかの深刻度等級が選択的な定量化を妨げています。
コンタクトレンズフィッティングデータベース
商用IPベースの監視システムとIoTネットワークに対する9種類のネットワーク攻撃を収録したサイバーセキュリティデータセット。このデータセットには、偵察、MitM、DoS、ボットネット攻撃が含まれています。
2つのファイルsには、21263個の超伝導体とそれに関連する特徴量のデータが含まれています。
BI-RADSの属性と患者の年齢に基づいたマンモグラフィ乳房腫瘤の良性・悪性の判別
44人のライターによる250サンプルのデジットデータベース
データはUSDAの植物データベースから抽出されています。このデータベースには、データベース内のすべての植物(種と属)と、それらが発生するアメリカとカナダの州が含まれています。
データセットは、1987年インドネシア避妊有病率調査(National Indonesia Contraceptive Prevalence Survey)のサブセットです。
このデータセットには、ダウ工業株指数の週次データが含まれています。これは計算投資の研究に使用されています。
このデータセットは、米国国勢調査局が1994年と1995年に実施した現在の人口調査から抽出した加重付きの国勢調査データを含んでいます。
70,000の手書き数字(10個のクラスラベル)からなるよく知られたデータベースで、各例は28×28グレイスケールのピクセルの画像として表現されている。
このデータセットでは、異なる社会的、経済的、学業的属性に基づいて学期末パーセンテージの予測を試みた。
HCVの治療用量を約18か月受けたエジプトの患者。離散化は、専門家の推奨事項に基づいて適用する必要があります。その方法を示す添付ファイルがあります。
Collins Gem Guide to Flags, 1986より
このデータセットには、ドイツ南部の町を走行する自動車から記録された歩行者の足跡が多数含まれている。このデータは特にマルチエージェントの動き予測タスクに適している。
無響風洞で実施された2次元および3次元翼の翼断面の一連の空力・音響試験から得られたNASAのデータセット。
このデータセットには、2019-11-06から2020-02-13まで、自宅で一人暮らしをしている高齢者のモニタリングから得られた、ガスセンサー、温度センサー、動作赤外線センサーが含まれている。測定の時間分解能は20秒である。空気およびガスセンサーは、温度、湿度、CO2、COおよびMOXの測定値を測定する。位置センサーからのデータはバイナリで、各部屋について、1はその部屋で動きが検出されたことを意味し、0はセンサーがベースラインに戻ったことを意味する。添付の図は、モニターされた家の簡単なレイアウトとセンサーの位置を表している。データセットには、参照データとして、誰も部屋にいなかった19日間(2020-01-25から2020-02-13まで)の測定値も含まれている(2020-01-29の15:にエスポラディックが訪問したことを除く)。
このデータセットには、イタリアの食料品店から収集された階層的な販売データが含まれている。
Smartphones and SmartwatchesのHeterogeneity Human Activity Recognition(HHAR)データセットは、実世界のコンテキストで人間の活動認識アルゴリズム(分類、自動データセグメンテーション、センサーフュージョン、特徴抽出など)をベンチマークするために考案されたデータセットです。具体的には、データセットは、実際の展開で予想されるセンシングの不均一性を反映するために、さまざまなデバイスモデルと使用シナリオで収集されます。
MYO Thalmicブレスレットで記録した生の筋力データのファイルです。
心臓発作後1年以上生存するかどうかを分類するためのデータ
バスケットボールの練習で行われる、ドリブル、パス、シュート、ボールを拾う、ボールを持つ、という異なるボランティアから収集されたデータです。
データセットには、トルコにあるガスタービンからの排ガス、すなわちCOとNOxを研究する目的で、1時間に渡って集約された11のセンサー測定の367733インスタンスが含まれています。
以前に認知心理学の実験で使用されたデータ;4つのデータセットは、実験の異なる条件を表しています。
3つのクラス/疾患があります。Bacterial leaf blight、Brown spot、Leaf smutの3つのクラス/疾患があり、それぞれ40枚の画像があります。すべての画像のフォーマットはjpgです。
ヨーロッパ全土の24のカテゴリから、アトラクションに関するGoogleレビューを考慮しています。Googleユーザー評価は1から5までの範囲で、カテゴリごとの平均ユーザー評価が計算されます。
このデータセットは、特定の医薬品に関する患者レビューを、関連する条件とともに提供しています。レビューと評価は、利点、副作用、総合的なコメントの3つの側面についてのレポートにグループ化されています。
このデータセットのタスクは、近隣の場所の過去の交通量とその他の特徴に基づく時空間的な交通量の予測です。
データセットは、2009年6月5日から2011年2月22日までのイスタンブール証券取引所のリターンと他の7つの国際指標(SP、DAX、FTSE、NIKKEI、BOVESPA、MSCE_EU、MSCI_EM)を含む。
DeFungiは顕微鏡真菌画像を直接菌学的に検査するためのデータセットです。画像は、酵母、カビ、皮膚糸状菌による表在性真菌症のものである。画像は手作業で5つのクラスにラベル付けされ、主題専門家の支援を受けてキュレーションされている。画像は自動化されたアルゴリズムでトリミングされ、最終的なデータセットが作成された。
乳がんの手術を受けた患者の生存率について実施された研究の事例をデータセットに含みます。
学習アナリティクスのデータセットです。教育プロセスマイニングデータセットは、教育シミュレータで学習中にロギングアプリケーションを介して115人の被験者の活動を記録したものから構築されています。
Human Activity Recognition Trondheim (HARTH)データセットは、22人の被験者が2つの3軸加速度センサーを装着し、自由生活環境で約2時間、専門家が注釈を付けたデータセットである。センサーは右大腿部と腰部に取り付けられている。専門家による記録と注釈は、研究者が自由生活における正確なHARのための革新的な機械学習アプローチを開発するための有望なベンチマークデータセットを提供する。
Human Activity Recognition 70+ (HAR70+)データセットは、半構造化された自由生活プロトコルの間、2つの3軸加速度センサーを約40分間装着した、18人の健康で虚弱な高齢成人被験者(70~95歳)を含む、専門家による注釈付きデータセットである。センサーは右大腿部と腰部に取り付けられた。
オーディオの特徴から曲のリリース年を予測。曲は主に1922年から2011年までの西洋の商用曲で、2000年代をピークにしています。
シャトルデータセットには9つの属性が含まれており、その全てが数値です。データの約80%はクラス1に属しています。
このセンチメント分析データセットには、コンピューティングと情報学に関する国際会議で発表された科学論文のレビューが含まれています。課題は、レビューの方向性や評価を予測することです。
700の優良債権と300の不良債権、20の予測変数。1973年から1975年のデータ。不良債権を大幅にオーバーサンプリングした実際の債権からの層別サンプル。コスト行列が使用可能。
データセットには、子宮頸部の行動リスクに関する19の属性が含まれており、クラスラベルはca_cervixで、値はca_cervixが1、0で、それぞれ子宮頸部がある回答者とない回答者を意味する。
衛星画像の3×3の領域のピクセルのマルチスペクトル値と、各領域の中心ピクセルに関連した分類
温度、湿度、光、CO2の3つのデータから2値分類(部屋の占有率)に使用した実験データ。グランドトゥルースの占有率は、1分ごとに撮影されたタイムスタンプ画像から得られた。
このデータセットは、2011年から2012年の間にノルウェーで入院した84,811人の入院被験者のうち、感染症、全身性炎症反応症候群、原因微生物による敗血症、または敗血症性ショックと診断された110,204人の入院で構成されています。予測タスクは、病院で医療記録を収集してから約 9 日後に患者が生存したか、死亡したかを判断することです。 これは臨床医学において重要な予測問題です。敗血症は、感染に対する免疫の過剰反応によって引き起こされる生命を脅かす状態であり、臓器不全や死に至ることさえあります。敗血症は即時の死亡リスクと関連しており、多くの場合、患者は1時間以内に死亡します。これにより、多くの臨床検査や病院での分析は、タイムリーな診断と治療に実用的ではありません。患者の生存率を数分以内に予測できることは、できるだけ少なく、簡単に取得できる医療機能でできることが非常に重要です。
OPPORTUNITY Dataset for Human Activity Recognition from Wearable, Object, and Ambient Sensorsは、人間の活動認識アルゴリズム(分類、自動データセグメンテーション、センサフュージョン、特徴抽出など)をベンチマークするために考案されたデータセットです。
このデータセットはスマートフォンのセンサーから収集されたもので、群衆の行動分析、例えば異常の分析に利用できる。
このMOVERの最初のリリースには、2015年から2022年までにカリフォルニア大学アーバイン医療センターで手術を受けた成人患者が含まれています。手術を受けた患者のデータは2つの異なるソースから取得されました: すべての手術室から高忠実度の生理学的波形をリアルタイムで取得し、電子カルテデータと照合しました。MOVERには、58,799人のユニークな患者と83,468件の手術のデータが含まれています。このデータセットは、データ利用契約に署名したすべての研究者が自由に利用できます。
恐怖条件付け(連想学習を評価するために使用されるタスク)にさらされた8クラスのコントロールマウスとダウン症マウスの大脳皮質で測定された77種類のタンパク質の発現レベル。
HTRU調査で収集されたパルサー候補。パルサーは星の一種であり、科学的にも非常に興味深いものです。パルサー候補は、発見を助けるためにパルサーと非パルサーに分類されなければなりません。
このデータセットは、パターン認識の新しい研究分野であるオンラインWriteprintにおける著者識別に利用されています。
米国内のコミュニティ。このデータは、1990年の国勢調査の社会経済データ、1990年のLaw Enforcement Management and Admin Stats調査の法執行データ、1995年のFBI UCRの犯罪データを組み合わせたものです。
分類や予測に適した自閉症の子供のスクリーニングデータ
このデータセットには、5つのテキストコレクションをバッグ・オブ・ワード形式で収録しています。
複数のプラットフォーム上のニュースアイテムとそれぞれのソーシャルフィードバックの大規模なデータセット。Facebook、Google+、LinkedIn。
イタリアの都市に設置されたガスマルチセンサデバイスの応答を含む。
このデータセットには17のクラスがあります。データは、train、val、testの3つのパーティションに分けられます。クラスは0 : Beet Armyworm 1 : Black Hairy 2 : Cutworm 3 : Field Cricket 4 : Jute Aphid 5 : Jute Hairy 6 : Jute Red Mite 7 : Jute Semilooper 8 : Jute Stem Girdler 9 : Jute Stem Weevil 10 : Leaf Beetle 11 : ミールバグ 12 : ポッドボーラー 13 : Scopula Emissaria 14 : Termite 15 : Odontotermes (Rambur) 16 : イエダニ
children : このデータセットは、いくつかの血液学的疾患を持つ小児患者を対象としていますが、その中でも特に未分化同種無関係ドナー造血幹細胞移植の対象となっています。
形状特徴抽出器のアンサンブルをオブジェクトの2Dシルエットに適用することで、2D画像内の3Dオブジェクトを抽出します。
これは、1987年にロイターのニュースワイヤーに掲載された文書を集めたものです。文書を集め、カテゴリー別にインデックスを作成した。
スパム研究のために収集されたコメントの公開セットです。収集期間中に最も閲覧された10本の動画から抽出した1,956個の実メッセージで構成された5つのデータセット。
コネクト4ポジションを含む
「Recipe Reviews and User Feedback Dataset」はレシピのレビューとユーザーとのインタラクションの様々な側面を含む包括的なデータリポジトリです。レシピ名、トップ100レシピリストでのランキング、ユニークなレシピコード、ユーザーID、ユーザー名、ユーザーレピュテーションスコアなどのユーザー詳細などの重要な情報が含まれています。 各レビューコメントはコメントIDで一意に識別され、作成タイムスタンプ、返信数、アップボート・ダウンボート数などの属性が追加されます。レシピに対するユーザーの感情は、1から5の星評価スケールで定量化され、0のスコアは評価がないことを示す。 このデータセットは研究者やデータサイエンティストにとって貴重なリソースであり、センチメント分析、ユーザー行動分析、レシピ推奨システムなどの試みを促進する。このデータセットは、料理サイトの領域におけるレシピレビューやユーザーフィードバックのダイナミクスを知るための窓を提供します。
USCensus1990raw データセットには、1990 年の国勢調査の全サンプルから抽出された公共利用マイクロデータサンプル(Public Use Microdata Samples: PUMS)の人物記録の 1%のサンプルが含まれています。
PPG-DaLiAには、生理学的センサーとモーションセンサーを装着した15人の被験者のデータが含まれており、日常生活活動における体動補償と心拍数推定のためのPPGデータセットを提供しています。
このデータセットは、直流電気機械に関する学生の知識状況に関する実際のデータセットです。データセットは博士論文から取得したものです。
トレーニングデータは、パーキンソン病(PD)患者20人と健常者20人のもの。すべての被験者から、複数種類の音声記録(26)を取得した。
このイベントログは、IT企業が利用しているServiceNowプラットフォームのインスタンスの監査システムから収集したデータを抽出し、リレーショナルデータベースから読み込んだデータをリッチ化したものです。
このデータセットには、画像に糖尿病性網膜症の兆候が含まれているかどうかを予測するために、Messidor 画像セットから抽出された特徴が含まれています。
1000から20000のクラスラベルと数百万の画像を持つ、よく知られた大規模画像分類データセット。
音楽分析のためのデータセット。FMAは106,574曲を収録しており、曲名、アルバム、アーティスト、ジャンル、再生回数、お気に入り、コメント、説明、バイオグラフィー、タグ、音声(343日、917GiB)と機能を含んでいます。
このデータセットは、Jiten Hazarika教授が収集した、特定の年のアッサム州の医科大学入学試験に合格した受験者のデータを含んでいます。
このデータセットは、血圧をカフレスで推定するためのアルゴリズムの設計に使用できるように、前処理され、洗浄されたバイタル信号を提供します。
このアーカイブには、様々な濃度レベルの6種類のガスに曝露された16個の化学センサから得られた13910個の測定値が含まれています。
このデータセットには、理学療法エクササイズの実行中のウェアラブル慣性センサーと磁気センサーのデータが含まれている。理学療法エクササイズは8種類あり、それぞれに3つの実行タイプ(正しい、速い、低振幅)がある。各エクササイズの実行タイプは、5人の被験者によって複数回実行された。被験者は,XSens 社製の MTx センサーユニットを 5 個装着した.各ユニットには、加速度計、ジャイロスコープ、地磁気センサーの3軸センサーが搭載され、25Hzでサンプリングされる。
スキンセグメンテーションデータセットは、B, G, R色空間上に構築されています。Skin and Nonskinデータセットは、年齢、性別、人種の多様性のある人々の顔画像から肌のテクスチャを用いて生成されます。
5種類のQCMガスセンサーを使用し、それぞれに5種類のガス測定(1-オクタノール、1-プロパノール、2-ブタノール、2-プロパノール、1-イソブタノール)を行っています。
本物の埋立地環境内で収集された、9つの主要な材料タイプにわたる廃棄物の画像分類データセット。
インド監査法人から2015年から2016年までの1年間の企業の網羅的な非機密データを収集し、怪しい企業を分類するための予測因子を構築しています。
データセットには、イランのテヘランにある一戸建て住宅の不動産に対応する建設費、販売価格、プロジェクト変数、経済変数が含まれています。
このデータセットは、20のニュースグループから抽出された20000件のメッセージから構成されています。
目標:どの文字名が話されていた予測 – 単純な分類タスク。
51 人の被験者がそれぞれ 3 分間 18 の活動を行う際に、スマートフォンとスマートウォッチから収集した加速度計とジャイロスコープの時系列センサーデータを含む。
コンクリートは非常に複雑な材料です。コンクリートのスランプフローは含水率だけでなく、他のコンクリート成分の影響も受けます。
このデータセットは、オランダのユーティリティマップのコレクションから抽出された手書きの数字(`0「–`9」)の特徴から構成されています。
このデータは、肺がん患者の術後平均余命に関連する分類問題に特化しています: クラス 1 – 手術後 1 年以内の死亡、クラス 2 – 生存。
2010年から2019年の間にリリースされた29000以上の良性およびマルウェアのAndroidアプリから抽出されたパーミッションが含まれる。
リュブリャナ腫瘍研究所より
これは、2013年の4大テニストーナメントの女子と男子の試合統計を含む8つのファイルのコレクションです。各ファイルは42列、最小76行で構成されています。
MathEはMathEプロジェクト(mathe.pixel-online.org)の下で開発された数学プラットフォームです。このデータセットには、高等教育で習う数学のトピックの問題に対する9546の解答が含まれています。このファイルには8つの特徴があります: 学生ID、学生の国、問題ID、解答のタイプ(正解または不正解)、問題レベル(基礎または応用)、数学トピック、数学サブトピック、問題キーワードです。問題レベルは問題を提出した教授に関連付けられています。データは2019年2月から2023年12月まで取得しました。
Iris の代替として提示され、データの探索/視覚化の教育に役立つ入門データセットです。データは、南極のパーマー諸島の島々に生息する3種のペンギンから得られたものです。
UJIIndoorLocは、WLAN/WiFiフィンガープリントに依存した屋内測位システムをテストするためのマルチビル・マルチフロア屋内定位データベースです。
ドメイン理論(日本のドメインエキスパートに聞いて作成したもの)、Lispデータを含む。
我々は同時多ラウンドオークションをBPMNモデルでモデル化し、後者をペトリネットに変換し、モデルチェッカーを使ってオークションの特定の結果が可能かどうかを検証した。
有名な画像分類データセット、10クラス、32×32ピクセル画像。
コロナウイルス病(COVID-19)サーベイランス。
大豆栽培は、食品産業のいくつかの分野で使用されるため、最も重要なものの1つである。さまざまな植え付け特性や収穫特性に応じた大豆品種の評価は、現在進行中の研究分野です。我々は、その後の季節に作付けされた 40 品種の大豆から得られたデータセットを提示します。実験には無作為化ブロックを用い、4反復の分割プロット方式で配置しました。以下の変数を収集しました:草丈、最初のさやの挿入、茎数、1株あたりのマメ数、さやあたりの粒数、千粒重、穀物収量。このデータセットは、さまざまな分野の研究者が利用できます。
タスク:過去23回のシャトルフライトのデータをもとに、華氏31度のフライトで熱的苦痛を経験したOリングの数を予測します。
データは、COmbined Diesel eLectric And Gas(CODLAG)推進プラントタイプを特徴とするフリゲート船に搭載されたガスタービン(GT)の高度なシミュレータから生成されています。
このデータセットには、概日リズムの生成に関与するコア時計タンパク質CRY1の機能ドメインに対して設計された171個の分子が含まれている。そのうち56分子は有毒で、残りは無毒である。
a7上のキング+ルーク対キング+ポーン(通常はKRKPA7と略される)。
Dota 2は5人のプレイヤーからなる2つのチームからなる人気のコンピュータゲームです。ゲーム開始時に、各プレイヤーはそれぞれ異なる長所と短所を持つユニークなヒーローを選びます。
バーミンガム市議会からNCPが運営するバーミンガム市内の駐車場から収集したデータ。UK Open Government Licence (OGL) https://data.birmingham.gov.uk/dataset/birmingham-parking。
手書きデータベースは、62名のPWP(People with Parkinson)と15名の健常者から構成されています。3種類の記録(Static Spiral Test, Dynamic Spiral Test, Stability Test)を取得しました。
ドキュメントが少ない
このデータセットは、40種類の植物種に由来する葉の標本のデジタル画像から抽出された形状とテクスチャの特徴のコレクションで構成されています。
参加者は、個人情報フォームと離婚予測尺度に記入しました。
複数のクラスが植物の状態を予測
AmazonのInfoSecはAccessデータの活用方法を賢くしています。これは、社内でプロビジョニングされたアクセスの匿名化されたサンプルです。
データセットの簡単な説明を提供してください(200文字以内)。
Open University Learning Analytics Datasetには、選択された7つのコースと30000人以上の学生のコース、学生、仮想学習環境との相互作用に関するデータが含まれています。
活動認識データセットは、30人の被験者が、慣性センサーを内蔵した腰に装着したスマートフォンを携帯しながら、基本的な活動や姿勢遷移を行った際の記録から構築されています。
このデータセットには、故障検出後のロボットの力とトルクの測定値が含まれています。各故障は、一定の時間間隔で収集された15個の力/トルクサンプルによって特徴づけられています。
泌尿器系の2つの疾患の推定診断を行うエキスパートシステムをテストするためのデータセットとして、医療専門家が作成しました。
多様な変数を用いたCNNベースの株式市場予測 . このデータセットには、2010年から2017年までのS&P500、NASDAQコンポジット、ダウ・ジョーンズ工業平均、RUSSELL 2000、NYSEコンポジットの日次特徴量が含まれています。
ハンガリーの毎週の水痘患者の時空間データセット。このデータセットは、郡レベルの隣接行列と、2005年から2015年の間に郡レベルで報告された症例の時系列で構成されています。
このデータベースは、ブラジルのサンパウロ市の都市交通の行動記録を用いて作成された。
BitcoinHeistデータセットには、ランサムウェアの支払いを特定するための異種ビットコインネットワーク上のアドレス機能が含まれています。
E. 部分ドメイン理論を用いた大腸菌プロモーター遺伝子配列(DNA
このデータセットは、大学のファイアウォール上のインターネットトラフィック記録から収集したものです。
携帯電話のIMUセンサー(加速度計、ジャイロスコープ)を使用して人間の活動を認識するために、リヤドのキングサウド大学で2022年に収集されたデータ。
CART book の波形領域
このデータセットには、TripAdvisor(http://www.tripadvisor.com)から抽出した、ラスベガス・ストリップにある21軒のホテルのオンラインレビューから得られた定量的およびカテゴリー的な特徴が含まれています。
このデータは、20種類の香水の匂いで構成されています。データは、ハンドヘルド臭気計(OMX-GRセンサー)を使用して、毎秒28秒の周期で取得しました。
デルフトのデータセット、寸法と速度からセーリングヨットの流体力学的性能を予測するために使用。
データセットには、赤道太平洋全域に配置された一連のブイから取得された海洋学的および表面気象学的測定値が含まれています。
心臓単一陽子放出コンピューター断層撮影(SPECT)画像のデータ。各患者は正常と異常の2つのカテゴリーに分類されています。
ブレードに重りを付けた冷却ファンの振動からの加速度計データ。 特にエンジンにおいて、振動解析を必要とする予測、分類、その他のタスクに使用できます。
データセットには、濃度の異なる2つの動的なガス混合物に曝露された16個の化学センサの記録が含まれています。各混合物について、信号は12時間の間連続的に取得されました。
このデータセットには、歩行タスク中に歩行の凍結(FoG)を経験したパーキンソン病患者の股関節と脚部の3つの加速度センサーの注釈付き読み取り値が含まれています。
同一属性空間上の3つの人工領域の集合;幅広い誘導アルゴリズムをテストするために使用されます
このアーカイブには、様々な濃度レベルの6種類のガスの識別タスクにおけるドリフト補正のためのシミュレーションに使用された16個の化学センサからの13910個の測定値が含まれています。
2014年3月10日から2014年8月10日までの期間にウェブアグリゲータから収集されたニュースページへの参照。リソースは、同じストーリーを議論しているページを表すクラスタにグループ化されています。
この問題は、セグメンテーション処理によって検出された文書のページレイアウトのすべてのブロックを分類することで構成されています。
テーマ:ヒトを対象とした研究
このデータセットのインスタンスには、facebookの投稿から抽出された特徴が含まれています。このデータに関連するタスクは、投稿がどれだけのコメントを受け取るかを予測することです。
カリフォルニアの温室効果ガス (GHG) の排出量を監視する観測ネットワークを設計し、気象モデル シミュレーションからの合成観測とトレーサーの時系列を前提としています。
データセットは、ヴィシェグラード・グループ(チェコ共和国、ハンガリー、ポーランド、スロバキア)の上場企業を対象としています。調査期間は、四半期分析(2017年第1四半期~2021年第1四半期)と年間分析2017年~2020年のデータをカバーしています。82の指標を計算しました。データは6セクター(S)に関係します: 1. 運輸・倉庫業、2.卸売業、3.製造業、4.小売業、5.エネルギー、6.建設業。データはEmerging Markets Information Service (EMIS, http://www.securities.com)から収集した。これは世界中の新興市場に関する情報を含むデータベースです。
このデータセットには、トルコのアンカラにあるGazi大学の学生によって提供された合計5820点の評価スコアが含まれています。28のコース別問題と5つの属性があります。
このリンパグラフィー領域は、ユーゴスラビアのリュブリャナにある大学医療センター、Institute of Oncology, Ljubljanaから入手しました。(アクセス制限あり)
このデータセットには、医療分野における分娩問題の最も重要な特徴を持つ80人の妊婦の帝王切開の結果に関する情報が含まれています。
スチールアニールデータ
このデータセットには、さまざまなスキルショットを実行する、ロケット リーグ ゲームのプレイヤーのデータが含まれています。
カーゴ2000(C2K)の航空貨物の追跡および追跡イベントを匿名化し、業務遂行の5ヶ月間をカバーしています(3,942のプロセスインスタンス、7,932の輸送脚、56,082のアクティビティ)。
14個の温度変調型金属酸化物(MOX)ガスセンサで構成された化学検出プラットフォームを、ガスチャンバー内の一酸化炭素と湿度の高い合成空気の混合物に3週間曝露した。
インフルエンザ関連のツイートを特定することで、さまざまな場所や日付におけるインフルエンザの流行の時空間パターンを予測することが目的です。
データセットには、幸せ、悲しみ、怒り、リラックスという 4 つの異なるクラスの音楽感情があります。
1000本のスポーツ記事をAmazon Mechanical Turkを用いて客観的または主観的にラベル付けした。生のテキスト、抽出された特徴、記事が検索されたURLが提供されています。
このデータセットは、3キロワットの商用マイクロガスタービンから収集された、入力制御信号に対応する電力の測定値から構成されています。
南インドの様々なタイプの関心事について、holidayiq.comで公開されているユーザーレビューから抽出したユーザー関心事情報
www.microsoft.com の匿名ユーザのログ;ユーザが訪問した他の領域のデータに基づいて、ユーザが訪問したウェブサイトの領域を予測します。
このデータセットには、ドレスの属性とそのsales.Salesに応じた推奨事項が含まれており、交互の日に基づいてモニターされています。
約80人の手書きの数字1593個をスキャンし、16×16の長方形のボックスに256値のグレースケールで引き伸ばしました。
“データは指導成績の評価で構成されており、スコアは “”低””、””中””、””高 “”のいずれかです。”
データは2015年にTwitter APIを使用して収集されました。このデータセットには、BBC、CNN、NYTなど15以上の主要な健康ニュース機関の健康ニュースが含まれています。
このデータセットには約120kのインスタンスが含まれており、それぞれが13の特徴タイプとクラス情報で記述されており、特に多視点トピック(コトレーニング、アンサンブル、クラスタリングなど)を探索するのに便利です。
データセットはレコメンダーシステムのプロトタイプから取得した。タスクは、消費者の好みに応じたレストランのトップNリストを生成することであった。
これには、14 の数値天気予報 (NWP) の気象予報データ、2 つの現場観測、および夏の韓国のソウルの 5 つの地理的補助変数が含まれています。
このデータには、Entree Chicagoのレストラン推薦システムとユーザーとのやりとりの記録が含まれています。
このデータセットは、ボランティアの居住者がいる家庭で収集された環境データです。データは、居住者が通常のルーチンを実行している間、継続的に収集されます。
このデータセットのインスタンスには、1059個のウェーブファイルから抽出されたオーディオ特徴が含まれています。このデータに関連する課題は、音楽の地理的起源を予測することです。
自動要約・引用分析のための4000件の法的事例のテキストコーパス。各文書について、キャッチフレーズ、引用文、引用キャッチフレーズ、引用クラスを収集しています。
目標は、新しい分子が麝香か非麝香かを予測することを学ぶことです。
ミハエルスキーの有名な大豆の病気データベース
Synchronous Motor (SM) は、一定の速度を持つ交流モーターです。SMのデータセットは、実際の実験セットから得られます。タスクは、SMの励磁電流を推定するための強力なモデルを作成することです。
Pimephales promelas (fathead minnow)に対する定量的な急性水生毒性を予測するために使用された908種類の化学物質の6つの属性(分子記述子)の値を含むデータセット。
アクセントの検出と認識のために6つの異なる国の話者が読む単一の英語の単語を含むデータセット
TUNADROMD データセットには、4465 個のインスタンスと 241 個の属性が含まれています。 分類のターゲット属性はカテゴリ (マルウェアとグッドウェア) です。 (注意: これは TUANDROMD の前処理バージョンです)
データセットの正のクラスは、APSシステムの特定のコンポーネントの故障で構成されています。ネガティブクラスは、APSとは関係のないコンポーネントの故障を持つトラックから構成されています。
このデータセットには5つの列が存在する。最初の4列は特徴量(面積、検知範囲、送信範囲、センサーノード数)、最後の列は予測変数またはターゲット変数(障壁の数)である。このデータセットはモンテカルロシミュレーションによって合成されたものである。
医療ディープフェイク:人間の肺のCTスキャンで、一部はがんの追加/除去で改ざんされています。あなたはそれらを見つけることができますか?
専門の化学者による分子類似性評価。ヒトによる分子類似性評価の予測に有用です。
UAV識別のために、各入力は暗号化されたWiFiトラフィックの記録であり、出力は現在のトラフィックがUAVからのものであるかどうかである。属性関係のメタ情報も提供されます。
異なる分類の多様な生物の大規模サンプルのDNAコドン使用頻度
臨床環境での活動を認識するために、バッテリーレスのウェアラブルセンサーを衣服の上から装着した66歳から86歳までの14人の健康な高齢者からの連続的な動きデータ。
このリポジトリでは、呼吸器疾患の4つのグループの分類のための新しいデータセットを紹介しています。慢性閉塞性肺疾患(COPD)、喘息、感染症、健康なコントロール(HC)の4つのグループに分類するための新しいデータセットを導入した。
データ収集は、地域とサンパウロ市(ブラジル)で事業を展開している宅配会社での注文の配布中に撮影されたメモを通して行われました。
目標は、新しい分子が麝香か非麝香かを予測することを学ぶことです。
データセットはGo!Trackと呼ばれるAndroidアプリによって提供されています。Goolge Play Store(https://play.google.com/store/apps/details?id=com.go.router)で公開されています。
このデータは、効果的にデータベース内の負荷プロファイルの少ないパラメータに結果を生成することができます。
霊長類のスプライス結合遺伝子配列(DNA)と不完全領域理論の関係
スマートフォンで見える7つのWiFi信号の信号強度を観測することで、屋内空間で収集。決定変数は4つの部屋のうちの1つ。
データはサーボシステムのシミュレーションから得たものです。
黒王(KRK)に対抗する白王とルークのチェス終盤ゲームデータベース。
18個の気候モデルの入力パラメータ値のうち、ラテン語の超立方体のサンプルが与えられると、気候モデルのシミュレーションがクラッシュすることを予測し、失敗の原因となるパラメータ値の組み合わせを決定します。
このデータセットは、9人の男性話者から取得した12のLPC cepstrum係数の640の時系列を記録しています。
このデータセットには、Tripadvisor (~259,000 レビュー) と Edmunds (~42,230 レビュー) から収集した車やホテルのユーザーレビューが含まれています。
UR3 CobotOpsデータセットは、UR3コボットからの多次元時系列データの重要なコレクションであり、ロボット工学とオートメーションにおける機械学習のための操作パラメータと故障に関する洞察を提供します。MODBUSおよびRTDEプロトコルを介して収集された電流、温度、関節(J0-J5)間の速度、グリッパー電流、動作サイクル数、保護停止、グリップロスを備えています。このデータセットは、故障検出、予知保全、運用最適化の研究をサポートし、産業用アプリケーションの主要なコボットモデルの詳細な運用スナップショットを提供します。
思春期の自閉症スペクトラム障害スクリーニングデータ. このデータセットは分類と予測タスクに関連しています。
電気機械装置の故障診断問題; PUMPS DATA SETも新しいバージョンで領域理論と結果を掲載しています。
このデータセットには、エッジが異なる日をまたいで数時間連続して収集される22のバラバラなグラフが含まれており、さまざまな企業のさまざまな分散アプリケーションの通信(TCPおよびUDP)を反映しており、グラフアルゴリズムの開発、データマイニング、機能と構造の発見、教師なしおよび教師ありの機械学習(グラフクラスタリングとコミュニティ検出を含む)に役立ちます。グラウンド トゥルースのグループ化情報は、2 つのグラフ (ホストの機能またはロールに基づくノードのグループ化) に対して提供されます。READMEファイルをご覧ください。
コラールを基にした時系列データ、生成文法の学習が課題。
この1時間ごとのデータセットには、北京、上海、広州、成都、瀋陽のPM2.5のデータが含まれています。一方、各都市の気象データも含まれています。
「スマートウォッチによる社会的距離の警告」のデータセット
これは、手書きのデヴァナーガリー文字の画像データベースです。文字の46クラスがあり、それぞれ2000例の例があります。データセットはトレーニングセット(85%)とテストセット(15%)に分割されています。
このデータセットには、2つの異なるソーシャルネットワークからのバズイベントの例が含まれています。Twitterと、より保守的なダイナミクスを持つ新技術に焦点を当てたフォーラムネットワークであるTom’s Hardwareです。
1994年AAAI Spring Symposium on Artificial Intelligence in Medicineの参加者が使用するために用意されたデータセット。
これは、超対称粒子を生成するシグナルプロセスとそうでないバックグラウンドプロセスを区別するための分類問題です。
タンパク質三次構造の物理化学的性質のデータセットです。CASP 5-9からのデータセットです。45730個のデコイがあり、サイズは0から21 armstrongまで様々です。
TUNADROMDデータセットには、4465個のインスタンスと 241 個の属性が含まれています。 分類のターゲット属性はカテゴリ(マルウェアと優良ウェア)です。(注意:これはTUANDROMDの前処理バージョンです)
我々は、サイバーセキュリティ研修に参加し、Linux端末で課題を解いた275人の参加者から得られた21459のシェルコマンドのデータセットを提示します。取得された各データレコードには、コマンドとその引数、およびタイムスタンプ、作業ディレクトリ、エミュレートされたトレーニングインフラ内のホスト識別などのメタデータが含まれています。コマンドは、Bash、ZSH、および Metasploit シェルでキャプチャされました。データは、オープンソースのロギング・ツールセットと2つのオープンソースの対話型学習環境を使用して収集されたJSONレコードとして保存されています。研究者や開発者は、データセットを自由に使用したり、ロギング・ツールセットと学習環境をデプロイして、同じフォーマットで独自のデータを生成することができます。
乳房から切除したばかりの組織サンプルの電気インピーダンス測定を含むデータセット。
3つの異なる演習:筋肉に座って、立って、歩いて:大腿二頭筋、正中広筋、大腿直筋と半腱様のエクササイズでゴニオメトリーに加えて、大腿二頭筋、正中広筋、大腿直筋、半腱様。
ミジンコに対する定量的な急性水生毒性を予測するために使用された546種の化学物質の8つの属性(分子記述子)の値を含むデータセット。
サンフランシスコ湾岸エリアのフリーウェイの異なる車線の占有率(0から1の間)を時系列で記述した15ヶ月分の日次データ(440件の日次記録)。
データセットはマルチラベル分類問題である。目的は、GISシステムと衛星画像から得られた特徴量に基づいて、貯水池付近の両生類種の存在を予測することである。
このデータセットは、オーストラリア南岸の4つの実波シナリオにおける波力変換器(WEC)の位置と吸収出力から構成されています。
ARCENEのタスクは、質量分析データからがんパターンと正常パターンを区別することです。これは連続入力変数を用いた2クラス分類問題です。このデータセットは、NIPS 2003の特徴選択課題の5つのデータセットのうちの1つです。
本データセットは、免疫療法を用いた90名の患者のイボ治療結果を収録したものです。
データには、5人の人がさまざまな活動を行った記録が含まれています。各人が4つのセンサー(タグ)を身につけて、同じシナリオを5回実行しています。
このデータセットのインスタンスには、ブログ記事から抽出された特徴が含まれています。このデータに関連するタスクは、投稿がどのくらいのコメントを受け取るかを予測することです。
基本的な手の動きのためのsEMGには、DelsysのEMGシステムを使用した6つの手の動きの表面筋電図信号の2つのデータベースが含まれています。健康な被験者が日常生活で6回の把持を行いました。
アヌラン(カエル)の鳴き声の音節から抽出された音響特徴(ファミリー、属、種のラベル(マルチラベル)を含む)。
家庭環境でのさまざまな条件でのセンサーアレイの100回の記録:背景、ワイン、バナナのプレゼンテーション。アレイには、8つのMOXガスセンサ、湿度および温度センサが含まれています。
MADELONは、2003年のNIPS 2003の特徴選択課題の一部である人工データセットです。連続入力変数を用いた2クラス分類問題です。問題が多変量で非線形性が高いのが難点です。
こちらのデータは、2012年1月1日から2014年12月31日までの3年間に、様々な米国株式ポートフォリオに対して毎日朝に行われたZZAlpha?機械学習による推奨をまとめたものです。
モーター電流から特徴量を抽出。モーターには無傷の部品と欠陥のある部品がある。その結果、条件の異なる11のクラスに分かれています。
人気商品のeBayオークションを大量にスクレイピングしました。オークションデータを前処理した後、SBデータセットを構築します。目標は、ラベル付けされたSBデータセットを研究者と共有することです。
2つのデータ形式(構造化された、1行1インスタンス
著者らは、最先端技術である超広帯域技術に基づくインテリジェント監視システムから取得したデータセットを提示しました。このインテリジェント監視システムは、病院やその他の臨床施設に出入りする患者の動きを完璧に把握するために提案されたものです。生データは、ウェアラブル・タグを使用して、臨床現場で貼付されたUWBアンカーとタグから収集されます。提案する監視システムを使用することで、患者の入退院記録を手作業で追跡するような、時系列的な行動を嫌うことができます。原稿に記載されたデータは、病院敷地内の12.5m×16.5mのエリアにシステムを導入した結果です。
ドキュメント化されていない
心臓単一陽子放出コンピューター断層撮影(SPECT)画像のデータ。各患者は正常と異常の2つのカテゴリーに分類されています。
患者の特徴のデータセット
エネルギー分散型蛍光X線からの化学組成に基づいたセラミックサンプルの分類
オリジナルの(LISPで読める)形式のデータ
TVコマーシャルデータセットは、インドの3つのニュースチャンネルと2つの国際ニュースチャンネルで放送された150時間(各30時間)のTVニュースから抽出されたビデオショットの標準的な視聴覚特性から構成されています。
80人の被験者(うち40人はパーキンソン病患者)の各人の持続的/a/音韻の3回の音声録音の再現から抽出した音響的特徴が含まれています。
このデータセットには、観光客の非言語的好みに関する情報が含まれています
ここに投稿された非連邦政府のデータセットのデータ抜粋 https://catalog.data.gov/dataset/somerville-happiness-survey-responses-2011-2013-2015
スペイン語版ウィキペディアにおける女性編集者の数とその編集慣行を推定するために使用されたデータセット
Avilaデータセットは、12世紀の巨大なラテン語のコピーである「Avila Bible」の800枚の画像から抽出されています。予測タスクは、各パターンをコピー者に関連付けることで構成されています。
このデータはUCIの既存のデータセットに追加したものです。また、アンビエント・アシステッドリビングの領域で適用される人間活動認識アルゴリズムの精度を向上させるために、より多くのデータを収集しました。
データは、SCITOS G5ロボットが壁に沿って時計回りに部屋の中を4周し、「腰」の周りに円形に配置された24個の超音波センサーを使用して収集されました。
グラビア印刷におけるシリンダーバンドと呼ばれるプロセス遅延を軽減するための決定木誘導に使用されています。
このデータセットは、オーストラリアのUNSWが実施したオンライン調査から得られたものです。群れる-群れない」、「揃う-揃わない」、「群れる-群れない」の3つのデータが含まれています。
従来型特徴量とソーシャルメディア特徴量に分類された12の特徴量。従来の特徴量は、Web上の動画データベースから収集した従来の特徴量と、ソーシャルメディア(YouTube,Twitter)から収集した特徴量の両方を収録しています。
学生ローンの関係領域
データは、炭鉱における高エネルギー(10^4 J以上)の地震バンプ予測の問題を記述しています。データはポーランドの炭鉱にある2つのロングウォールから得られたものです。
100種類の植物の葉のサンプルを16個ずつ収録しています。各サンプルについて、形状記述子、微細なスケールマージン、テクスチャヒストグラムが与えられています。
このデータセットには、10×10ピクセルの2次元弾性メタマテリアルの第一バンドギャップの位置と幅がリストされている。
このデータセットには、ウェブサイト上で販売されている商品(コンピュータ、お茶の機械、ヘッドフォン、モデム、香水、携帯電話、テレビ、USB)に対する、顧客のトルコ語のコメントが含まれている。このデータセットはEkin Ekinci助教授とSevinç İlhan Omurca教授によって作成された。このデータセットを使用する際には、「An alternative word embedding approach for knowledge representation in online consumers’ reviews(オンライン消費者のレビューにおける知識表現のための代替的な単語埋め込みアプローチ)」という研究を参照してください。
高解像度の航空画像を用いた都市の土地被覆の分類。持続可能な都市計画の取り組みを支援することを目的としています。
DOROTHEAは創薬データセットです。構造分子特徴量で表される化合物は、活性(トロンビンに結合する)か不活性に分類されなければなりません。NIPS 2003の特徴量選択チャレンジの5つのデータセットのうちの1つです。
呼吸分析は、生物学的表現型決定のための極めて重要な方法です。パイロット研究では、この手法の再現性を研究するために、4人の被験者を用いた100回の実験が行われました。
3つのデータセット: staDynBenignLab.csv, 595ファイル(Win 7と8)から抽出した特徴量, staDynVxHeaven2698Lab.csv, VxHeavenの2698ファイルから抽出した特徴量, staDynVt2955Lab.csv, Virus Totalの2955ファイルから抽出した特徴量。
このデータセットは、ドーム型住宅に設置されたモニターシステムから収集されています。約40日間のモニタリングデータに相当します。
エッジ ノードによって送信された 4 つのエッジ サーバーのタスク実行時間を記録。 ノードは、画像認識タスクのために画像をサーバーに送信します。 サーバーはタスクを実行し、結果をノードに返します。
このデータセットは、サウジアラビアの有機デーツを2種類に分類するためのバランスデータセットです。このデータセットには3つのサブセットが含まれる:1)20個のナツメヤシの実を2種類の有機ナツメヤシ(アジュワまたはメジュール)に分類するために手作業で作成された特徴を含むデータセット、2)アジュワとメジュールの画像のデータセット(前述の20個の果実の画像200枚)、3)2種類の有機ナツメヤシ(アジュワまたはメジュール)を分類するためにディープラーニングを用いて自動的に作成された特徴を含む表データを含むデータセット。本研究は、サウジアラビアの有機デーツを分類するための正確なモデルを作成するために、浅い機械学習と深層学習を使用したアラビア語における最初の研究であると考えられます。これにより、学者、研究者、開発者は、サウジアラビアのデーツを分類するための機械学習アプリケーションを、ウェブサイト、モバイルアプリ、マイクロコントローラ、小さな機械学習、モノのインターネットアプリケーションなど、様々な形で作成することができるようになります。
このデータベースは、Brain Computer Interface for Steady State Visual Evoked Potentials (BCI-SSVEP)を実施した30人の被験者で構成されています。
初期の未治療パーキンソン病患者とパーキンソン病発症リスクの高い患者から得られた音声特徴のデータセットから、神経変性のパターンを予測します。
1055種の化学物質を2つのクラスに分類するために使用された41の属性(分子記述子)の値を含むデータセット(レディ生分解性と非レディ生分解性)。
ポルトガル2019年:2019年ポルトガル議会選挙のリアルタイム選挙結果のデータセット。
モーションキャプチャー環境下で手袋の指にラベルの付いていないマーカーを使用して、12人のユーザーから5種類の手の姿勢を記録しました。解像度とオクルージョンの関係で、欠落した値がよく見られます。
データセットは、’Trialto Latvia LTD’(第三者物流業者)によって提供されています。各オブザベーションは、販売品目の異なるタイプを表しています。
安静時脳波(EEG)データから導き出された多層脳ネットワークデータセット。
2020 年と 2021 年のロンドンの Pedal Me による毎週の自転車荷物配達のデータセット。グラフ内のノードは地理的単位を表し、エッジは近接性に基づく相互隣接関係です。
頭部、胸部、腰部、手首、太もも、足首に装着した6つのセンサー(3.060インスタンス)を装着した状態で、17名のボランティアが20回の転倒と16回の日常生活動作を5回繰り返して行いました。
KDD-98と併催された「第2回国際知識発見・データマイニングツールコンペティション」で使用されたデータセットです。
歩行は生体情報の基準とされています。したがって、この歩行データセットを用いて、歩行分析を行う人を分類することを試みました。
このデータは、合成的に生成された制御図で構成されています。
データセットには、それぞれ24個のインスタンスからなる15個のクラスが含まれています。各クラスは、LIBRAS(ポルトガル語名「Lngua BRAsileira de Sinais」、ブラジルの公式な信号言語)の手の動きのタイプを参照しています。
パンジャブ州産小麦カーネルの形態学的記述子の測定。機械学習をベースにした技術が15の特徴を抽出するために使用されました。
ウィキペディアの人気のある数学のトピックに関するページを含み、エッジはあるページから別のページへのリンクを表します。特徴は2019年から2021年3月までの1日のアクセス数を記述しています。
分類と回帰木の本より; ここでは、サンプルデータベースを生成するための2つのCプログラムを提供します。
ベイラー大学の公称聴力データセット
このデータは、オーストラリア手話(Auslan)のサンプルから構成されています。5人の手話者から95個の手話を収集し、合計6650個の手話サンプルを収集しました。
GISETTEは手書きの数字認識問題です。この問題は、非常に混同性の高い数字「4」と「9」を分離する問題です。このデータセットは、NIPS 2003の特徴選択チャレンジの5つのデータセットのうちの1つです。
オリジナルデータセットと数値化されたデータセットを持つブリッジデータベース
専門家からの質的パラメータから破産を予測する
このデータセットには、カーボンナノチューブの初期原子座標と計算された原子座標が10721個含まれています。
日本の森林地帯の多時間リモートセンシングデータ。スペクトルデータを用いて異なる森林のタイプをマッピングすることを目的としています。
このデータセットは、記録された脳波信号から2つの精神段階を分類したものです。計画性(運動行為を想像している間)とリラックス状態です。
このデータセットは、ブラジル手話(Libras)の文法的表情の解釈を可能にするモデルの開発をサポートしています。
データセットには、風洞施設内の6つの異なる場所にある化学検出プラットフォームから、10種類の優先度の高い化学ガス状物質に反応して18000回の時系列記録が含まれています。
デンマークの高精度標高情報(+20cm)を持つ3次元道路ネットワークで、エコルーティングや燃料/二酸化炭素推定ルーティングアルゴリズムに使用されています。
身体活動データセットには、人間の活動性を測定する10の正常な身体活動と10の積極的な身体活動が含まれています。データは、Delsys EMGワイヤレス装置を使用して4人の被験者によって収集されました。
このデータセットは、広帯域環境下での利用者の信頼性評価に対応できる信頼モデルに基づいたアーキテクチャのテストに使用されました。
このデータセットには、曲げる、自転車に乗る、横になる、座る、立つ、歩くといったアクティビティを行うアクターが身につけているワイヤレスセンサーネットワークからの時間的データが含まれています。
小さなデータベース; すべての公称値
まず、Reddit 投稿データセットからすべての Reddit 投稿の URL を抽出することから始めた。これらのリンクは重複排除され、非 html コンテンツを除外するためにフィルタリングされた後、ランダムにシャッフルされた。その後、リンクを複数のマシンに並列に分散してダウンロードし、すべてのウェブページをnewspaper pythonパッケージを使って抽出した。Facebook FastTextを使い、英語以外のウェブページをフィルタリングした。 その後、ローカルセンシティビティハッシュ(LSH)を用いて、重複に近い文書を特定した。文書は5-gramの集合にハッシュ化され、類似度の閾値が0.5を超える文書はすべて削除された。残りの文書はトークン化され、128トークン未満の文書は削除された。これで8,013,769文書から38GB(SI単位では40GB)のテキストデータが残った。
このCSVデータセットは、もともとPCB画像からテストパッド座標を検索するために使用され、分類(例えば、グレイテストパッド検出)、異常検出(例えば、偽のテストパッド)、またはグレイテストパッド発見のためのクラスタリングのような潜在的なアプリケーションを提示します。データセットには、ピクセルの位置を表すXとY、ピクセルの色を決定するR、G、B値(0~255で正規化された最小値)が含まれます。「グレイ」フィールドは、おおよそのグレイピクセルを示します。このデータセットは元々、で発表されたデータセットで、多数のテストパッドクラスター(>100)の2段階発見に使用されました: article{Tan2016FastRO, title={プリント基板の写真画像からのテストパッド座標の高速検索}, author={Swee Chuan Tan and Schumann Tong Wei Kit}, journal={2016 International Conference on Advanced Mechatronic Systems (ICAMechS)}, year={2016}, pages={464-467}, url={https://api.semanticscholar.org/CorpusID:38544897}. } 抽出方法が異なるため、論文よりも画素数が多い。
イベントと検閲率を慎重に制御した様々な生存データが利用可能であり、生存モデル化のための新しいアプローチを開発し、テストすることができます。
液体超音波流量計4台の故障診断
肝細胞癌データセット(HCCデータセット)は、ポルトガルの大学病院で収集されたものです。HCCと診断された165人の患者の実臨床データが含まれています。
団体交渉レビューより
センチメント分析(SA)のこの問題は、英語ではよく研究されているが、アラビア語ではあまり研究されていない。主にコーパスベースとレキシコンベースの2つのアプローチが考案されてきた。
ポルトガルのポルト市内を走るタクシー442台すべての軌跡を記述した正確なデータセット。
このデータセットは、ジェスチャー位相セグメンテーションの研究を目的として、人々がジェスチャーをしている7つの動画から抽出された特徴量で構成されています。50個の属性を動画ごとに2つのファイルに分けて収録しています。
このデータには、1997年のインターネット利用者の一般的な人口統計学的情報が含まれています。
“データ集合 “”スマートウォッチによるマスク着用状態推定”””
本データセットは、活動認識のための心電図(ECG)、胸部電気生体インピーダンス(TEB)、皮膚電気活動(EDA)の特徴量を含んでいる。
このデータセットは、回帰ベースの機械学習アルゴリズムをテストするために使用できます。 4 つの特徴を使用して ALE 変数を予測できます。
エキゾチックな粒子を探索するには、興味のあるイベントを見つけるために、多数の衝突を選別する必要があります。このデータセットは、未知の質量を持つ新しい粒子の検出に挑戦しています。
乳がんや肺がん細胞に対する抗がん作用に関する実験的なアノテーションを持つペプチド。
主にProject Gutenbergから、ウパニシャッド、ヨーガ経典、ブッダ経典、タオ・テーチングと知恵の書、箴言の書、エクレシアステスの書、エクレシアステスの書を組み合わせています。
このデータは、様々な農場動物関連のトピックを扱う12のウェブサイトに掲載されているテキスト広告から収集されました。バイナリーラベルは、コンテンツの所有者が広告を承認しているかどうかに基づいています。
パラメータを変化させたGPU OpenCL SGEMMカーネルを使用して、2つの2048×2048行列を乗算するための実行時間(ライブラリ「CLTune」を使用)。
CART BOOKの波形領域
このデータセットには、時計のコアタンパク質CRY1の機能ドメイン用にデザインされた90の非毒性分子が含まれており、そのうち27分子は概日リズムの周期を有意に長くし、残りの63分子は変化なしである。
このデータは、Thompsonら(2013)で使用された。可能性のあるゲームアクションのリストは、Thompson, Blair, Chen, & Henrey (2013)で議論されています。
データセットには、標的タンパク質Sirtuin6の阻害剤候補を決定するために、最も関連性の高い6つの記述子を持つ100個の分子が含まれている。分子は低BFEと高BFEに基づいてグループ化されている。
オリジナルオーディオロジーデータベースの標準化版
8-MOXガスセンサーアレイの5つのレプリケートを異なるガス条件に曝露した(4つの揮発性物質をそれぞれ10の濃度レベルで曝露した)。
DrivFaceは、被験者が実際に運転しているときの画像シーケンスを収録しています。これは、複数の顔の特徴を持つ4人のドライバーから異なる日に取得した640×480の606枚のサンプルで構成されています。
このデータセットには、インドネシアで2番目に大きな現地語のつぶやきが含まれており、感情分類に利用されている。
このデータは、オーストラリア手話のサンプルから構成されています。ネイティブの手話者から高品質の位置追跡装置を用いて、95個の手話のうち27個の手話例を収集しました。
スペインの2つの大学の教員にウィキペディアの使い方を教えることについて調査
光学式リモートセンシング画像とPolSARリモートセンシング画像を組み合わせると、農地分類のための多数の時間的、スペクトル的、テクスチャ的、偏光的特徴を持つ補完的なデータセットが得られます。
このデータセットは、ベンガル語のソーシャルメディア・テキストにおけるヘイトスピーチの検出に利用できる。データセットは、政治的、個人的、地政学的、宗教的、ジェンダーを罵倒するヘイトに分類され、特定の個人、団体、グループに向けられたり、一般化されたりしている。データと辞書には、人種差別的、性差別的、同性愛嫌悪的、さまざまな意味で攻撃的なコンテンツが含まれている。このデータセットは、研究に関連する目的のためだけに収集され、その後アノテーションされたものである。また、特定の個人や団体に向けられた、あるいはある集団に一般化された、非常に攻撃的で憎悪的な記述が含まれていたとしても、著者は一切の責任を負いません。したがって、利用は自己責任でお願いします。
ICML-09 の URL データの 120 日間の匿名化されたサブセットで、240 万の例と 320 万の特徴量が含まれています。
8つの化学抵抗性ガスセンサで構成された化学検出プラットフォームは、風洞内で自然発生する乱流ガス混合物に曝露されました。これらのセンサの取得した時系列を示す。
Horton General Hospitalは、イギリスのオックスフォードからそう遠くないバンベリーという町にあります。
このデータセットは、胸ポケットに入れたAndroidスマートフォンからのデータを収集したもので、22人の参加者が事前に定義された道を野生のまま歩いたものです。
CMU connectionist bench repositoryより; 特定の球状タンパク質の二次構造を分類しています。
様々なデータベース 車両のシルエット、ランドサットサテライト、シャトル、オーストラリアのクレジット承認、心臓病、画像セグメンテーション、ドイツのクレジット
スキャンされたフォントとコンピュータで生成されたフォントからの文字イメージ。
OpenStreetMapからクラウドソースされたデータは、衛星画像の異なる土地被覆クラス(不浸透性、農場、森林、草、果樹園、水)への分類を自動化するために使用されています。
経済制裁の領域論; 未記載のもの
このデータベースには、WebページのHTMLソースと、これらのWebページに対する1人のユーザーの評価が含まれています。ウェブページは4つのテーマ(Bands-レコーディング・アーティスト、Goats、Sheep、BioMedical)に分かれています。
このデータセットには、凍結療法を用いた90人の患者のイボ治療結果に関する情報が含まれています。
6名の若い健康被験者に、上腕二頭筋カール重量挙げ運動の5つのバリエーションを行ってもらった。そのうちの1つのバリエーションは、健康専門家が予測したものです。
REALDISPデータセットは、ウェアラブル活動認識におけるセンサー変位の影響を扱う技術を評価するために考案されているだけでなく、一般的な活動認識アルゴリズムをベンチマークするために
イギリスの都市部で発生した交通事故360177件の座標(経度と緯度)を、発生した都市部の中心部に応じてラベル付けした(469通りのラベルが考えられる)。
個々の文字を書いている間に記録されたペン先の軌跡の複数のラベル付きサンプル。プリミティブ抽出の目的で、すべてのサンプルは同じライターからのものです。1つのペンダウンセグメントを持つ文字のみを考慮しました。
このデータセットは、オーストラリア南岸の4つの実波シナリオにおける波力変換器(WEC)の位置と吸収出力から構成されています。
英語のアルファベットの10大文字の構造を記述する一次理論を用いて人工的に生成されたデータセット
このデータセットには、Areias do Seixo Eco-Resortのオンラインのテキストレビュー(TripAdvisorなど)とオフラインのテキストレビュー(Guest’s bookなど)が含まれています。
データには、SFSU、Fulda、FAUのSW Eng.クラスの最終クラスプロジェクトの作成中に74の学生チームの活動から得られた100以上のチーム活動の測定値と結果(MLクラス)が含まれています。
眼の屈折異常に及ぼす生活習慣と遺伝の影響
4つのメーカーから移植された肩部プロテーゼの597個の非同定生のX線スキャン。
JARtoolプロジェクトは、マゼラン探査機によって返された金星画像の大規模なセットの中の小さな火山をカタログ化するための自動システムを開発するための先駆的な取り組みでした。
油井の中でまれに起こる望ましくない現実的な事象を持つ、初のリアルで公開されたデータセット。
このデータセットには、アラビア語の話し言葉の数字に対応する旋律周波数係数(MFCC)の時系列が含まれています。アラビア語母語話者の男性44人と女性44人のデータを含む。
移動ロボットのセンサデータからの学習概念; データセット一式
これは、9つのカテゴリのサブセットに分類されたブラジル企業のビジネス説明のフリーテキスト1080文書を含むデータセットです。
コーパスは、教師付き学習法を用いてノイズの多いグレースケールの印刷されたテキスト画像のクリーニング(または二値化)とエンハンスメントを行うことを目的としています。ノイズの多い画像とそれに対応する基底真理値が提供されています。
このデータセットは、既にリポジトリに存在するデータベース(Image segmentation database)に似た画像分割データベースであるが、少し異なる形式のものです。
このデータセットには、2次元マルチプロセッサ光相互接続ネットワークのシミュレーションから得られた640件の性能測定値が含まれています。
ナイトピンチェスエンドゲームデータベース作成者
このリポジトリでは、呼吸器疾患の4つのグループの分類のための新しいデータセットを紹介しています。慢性閉塞性肺疾患(COPD)、喘息、感染症、健康なコントロール(HC)の4つのグループに分類するための新しいデータセットを導入した。
データセットは、cullpdb [1] によって選択された 3,733 個のタンパク質に由来する、9mer と呼ばれる長さ 9 のタンパク質断片で構成されています。 すべてのタンパク質は、1) 分解能が 1.6 オングストローム未満、2) R 因子が 0.25 未満、3) 配列同一性が 20% 未満です。 さらに、CASP13 ターゲットに対して 20% を超える同一性を持つすべてのタンパク質が除去されます。 すべてのねじれ角ペアは、ラマチャンドラン プロットの許容領域内にあります (外れ値を含むフラグメントは、結晶解析ソフトウェア PHENIX [1] の Ramalyze 機能によって検出され、削除されました)。 データセットには、60/20/20 の分割でトレーニング、テスト、検証セットにランダムに分割された約 158,000 のエントリがあります。
Argumentative Zonesを修正した注釈スキームで注釈された30本の論文の抄録と紹介文が収録されています。これらの論文は生物学、機械学習、心理学からのものです。
このデータセットは、ローマ字ウルドゥー語の感情分析タスクに関する研究を実行するために収集されました。
ICF-CYに基づいた初のセルフケア活動データセット。
中皮腫のデータセットはトルコのディクル大学医学部で作成された。324人の中皮腫患者のデータである。このデータセットでは、すべてのサンプルに34の特徴があります。
自然災害・戦争時の被害に関連したソーシャルメディアのキャプション付き画像(画像とテキスト)5879枚で、6つのクラスに分類されます。火災、洪水、自然景観、インフラ、人間、非被害の6つのクラスに分類されます。
データセットには、ガス流量変調条件下で16個の化学センサから取得された58個の時系列が含まれています。センサーは、アセトンとエタノールの異なるガス状のバイナリ混合物にさらされました。
データセットはCT画像から抽出した384個の特徴量で構成されています。クラス変数は数値であり、人体の軸線上でのCTスライスの相対的な位置を表す。
このデータセットには、実世界のオフィス環境に配備されたワイヤレスセンサーネットワークからの時間的なデータが含まれています。このタスクは、アンビエント・アシステッドリビングの分野における実生活のベンチマークとして意図されています。
このデータセットには、2010年11月から2014年7月までにウイルスシェアが収集した107,888個の実行ファイルの動的特徴が含まれています。
このデータセットはMiniBooNE実験から取得したもので、電子ニュートリノ(シグナル)とミューニュートリノ(バックグラウンド)を区別するために使用されています。
このデータセットは、インターネットのページに掲載されている可能性のある広告の集合を表しています。
高解像度リモートセンシングデータセット(Quickbird)。病気の木のトレーニングサンプル数が少なく、他の土地被覆の場合は多数。イメージの層化されたランダムなサンプルからのテストのデータセット。
データは、オクタマー(8アミノ酸)のリストと、HIV-1プロテアーゼが中心位置(アミノ酸4と5の間)で切断するかどうかによるフラグ(-1または1)を含んでいます。
KEGG 代謝経路を有向関係ネットワークとしてモデル化したもの。様々な特徴をグラフィカルに表示することができます。
データセットは、’Trialto Latvia LTD’(第三者物流業者)によって提供されています。各オブザベーションは、販売品目の異なるタイプを表しています。
データセットは、パターン認識の新しい研究分野であるオンラインWriteprintの著者識別に使用されています。
イギリス英語の11の定常母音を、lpcから派生した対数面積比の指定されたトレーニングセットを使用して、話者に依存しない認識。
車両と路側機との無線通信に関するデータを提供します。2 つの別々のデータ セットが提供され (通常のシナリオ)、攻撃者が存在する場合 (ジャマー) があります。
データセットには、実データセット上のガウス分布からの範囲/半径のクエリワークロードの3つのセットが含まれています;各クエリは、集約スカラー値(カウント/サム/平均)に関連付けられています。
データセットは、クラスラベルを持つテキストフォーラムのスレッドのコレクションであり、Initial-Postへの返信品質を反映しています。
このデータセットには、定位とナビゲーションの目的で、実世界で運用されている屋内環境にあるBluetooth Low Energy (BLE) iBeaconsのアレイから収集されたRSSIの読み取り値が含まれています。
REJAFADA (動的分析に適用された Jar ファイルの取得) は、Jar マルウェアの検出品質をチェックするためのベンチマークとして使用することを目的としています。
石片は、先史時代の石器生産の廃棄物です。変数は、異なるインベントリに含まれるフレークの幾何学的および様式的な特徴の手段です。
KASANDRは、ヨーロッパのeコマース広告のリーダーであるKelkooの顧客の行動を記録した、レコメンデーションシステムのための新しい一般公開されたコレクションです。
標準チューニングのギターコード2633本の指の位置(ソフトウェアでダブルチェック
目的は、生物物理学的シミュレーションから抽出されたデータに基づいて、変異体p53の転写活性(活性 vs 不活性)をモデル化することです。
このデータセットは、Corel画像コレクションから抽出された画像特徴量を含みます。カラーヒストグラム、カラーヒストグラムレイアウト、カラーモーメント、共起性に基づいた4つの特徴セットがあります。
コンテナクレーンは、ある地点から別の地点へコンテナを輸送する機能を持っています。
WLANと地磁気を利用した屋内定位法のための多ソース・多変量データセット
CAD診断のために収集された。
このウェブグラフは、検証済みのFacebookサイトのページグラフです。ノードはFacebookの公式ページを表し、リンクはサイト間の相互の「いいね!」を表しています。
各レコードは2次元グラフ上の100点を表しています。Y座標を1から100までの順にプロットすると、丘(地形のこぶ)と谷(地形の窪み)のどちらかになります。
身体の姿勢と動きの分類(PUC-Rio)。健常者4名の8時間の活動について収集した5つのクラス(座位、起立、起立、歩行、座位)のデータセット。また、ベースラインパフォーマンス指数を設定しました。
QSARモデリングのための生物濃縮係数(BCF, 魚類)とメカニッククラスを手動で収集したデータセット。
歩行は生体情報の基準とされています。したがって、この歩行データセットを用いて、歩行分析を行う人を分類することを試みました。
関係データセット
このテストコレクションは、もともと5つの異なる言語で書かれた文書とその翻訳の特徴的な特徴を、6つのカテゴリの共通のセットにわたって含んでいます。
データセットには、アテネ(ギリシャ)のテストベッドに設置された4台のUSV(Unmanned Surface Vehicles)の群れに対応する4セットのモバイルセンサー読み取りデータ(湿度、温度)が含まれています。
海綿に関するデータ; スペイン語の属性
MicroblogPCUのデータは、sina weibo microblog[http://weibo.com/]からクローリングされています。このデータは、機械学習の研究やソーシャルネットワークの研究に利用できます。
チェスの合法的な手を生成するための6つの異なるドメイン理論
14名の参加者から126サンプル、309特徴量。目的:音声リハビリテーション治療が「許容できる」と考えられる発声と「許容できない」と考えられる発声のどちらにつながるかを評価する(2値クラス分類問題)。
IRASデータより — NASAエイムズ研究センター
筆跡データベースは、25人のパーキンソン病患者(PWP)と15人の健常者から構成されています。3種類の記録(静的スパイラルテスト、動的スパイラルテスト、安定性テスト)がとられています。
質量分析データからの微生物同定のための機械学習アプローチを探るためのデータセット。
このデータセットには、消化管病変の検出に使用される大腸内視鏡検査のビデオから抽出された特徴が含まれています。76の病変が含まれています。鋸歯状腺腫15個、過形成病変21個、腺腫40個です。
データセットには、ランダムにサンプリングされた100万個の動画インスタンスが含まれており、YouTubeの動画IDとともに10の基本的な動画特性がリストアップされています。
本論文では、イランのKohkiloyeとBoyer Ahmad州のサイバー空間へのユーザーの傾向の原因を認識するために探します。
ウィキペディアの人気のある数学のトピックに関するページを含み、エッジはあるページから別のページへのリンクを表します。特徴は2019年から2021年3月までの1日のアクセス数を記述しています。
DEXTERは、袋語表現のテキスト分類問題です。疎な連続入力変数を用いた2クラス分類問題です。このデータセットは、NIPS 2003の特徴選択チャレンジの5つのデータセットのうちの1つです。
このデータセットは、YouTube Comedy Slam上で収集された、ペアの動画の中からどちらの動画が楽しいかというユーザー投票データを提供します。本研究では、動画のメタデータに基づいて、この嗜好を自動的に予測することを目的としています。
データセットには7つのUser – Item行列が含まれており、各項目はユーザーがある項目を何回消費したかを表しています。アイテムは、様々なカテゴリの包括的な用語として使用されます。
手首に装着した3軸加速度計を1台持ち歩きながら、16人のボランティアが14の日常生活動作(ADL)を行った際の記録。
32種それぞれの葉の写真を20枚掲載。
ローマ字ウルドゥー語(ウルドゥー語のスクリプトスタイル)は、限られたリソース言語の1つです。20000を超えるレコードで構成されるデータコーパスが収集されました。
このデータセットには、ギリシャのアテネ(アテネ)にあるテストベッド内の4台のUSV(Unmanned Surface Vehicles)の群に対応する8つのモバイルセンサの読み取りデータ(湿度、温度)が含まれています。
MExマルチモーダルエクササイズデータセットは、30人の被験者が行った7種類の理学療法エクササイズのデータを、2つの加速度計、圧力マット、深度カメラで記録したものです。
センチメントラベル(ポジティブ、ニュートラル、ネガティブ、質問)付きのタイ語のソーシャルメディアメッセージ。
SELFBACKデータセットは、2つの三軸加速度計で記録された9つの活動クラスのHuman Activity Recognition Datasetです。
このデータセットは、150のインテントクラスを持つインテント分類(テキスト分類)データセットである。このデータセットの主な目的は,様々な分類器の領域外性能を評価することである.
ファイル animals.c は、四足動物を表す構造化インスタンスのデータ生成器です。
CAD診断のために収集された。
このデータセットは、日常的に使用されている大型スカニアトラックから収集したデータで構成されています。
データは、360日連続でTwitterから収集した。これは、Wikipediaからサンプリングした1497個の英語キーワードをクエリーすることによって行われた。このデータセットは、ランク付けのための学習設定で提案されています。
YouTube からの 15,744 件のコメント投稿を含む、ゴールドスタンダードのタミル語と英語のコード交換された感情注釈付きコーパスを作成しました。
ユーザプロファイリングデータセットは、罵倒的なユーザのツイートと、そのユーザのフォロワーとフォロワーのツイートを収集したものである。乱用言語検出データセットは、乱用ツイートの集合体である。
アジア各国のLastFMユーザーのソーシャルネットワーク。関連するタスクは、社会的な関係性やアーティストの「いいね!」をもとに出身国を予測すること。
レコードリンク設定の個人データとレコードの要素ごとの比較。このタスクは、比較パターンから、基礎となるレコードが1人の個人に属するかどうかを判断することです。
1056 分子の実験的生物濃縮係数(BCF)と、QSAR モデリングに使用するバイナリフィンゲプリント(拡張接続性)。
KEGG 代謝経路を無指向反応ネットワークとしてモデル化したもの。様々な特徴をグラフィカルに表現しています。
悪質なものと悪意のないものから特徴を抽出し、svm分類器を教えるためのデータセットを作成して訓練します。不明な実行可能ファイルで作られたデータセットで、ウイルスか通常の安全な実行可能ファイルかを検出します。
このデータセットは、物理アンクローナブル関数(PUF)シミュレーション、特にXORアービターPUFから生成されています。PUFは認証の目的で使用されます。詳細は下記の論文を参照してください。
ロサンゼルスの101ノースフリーウェイのグレンデールのランプでループセンサーのデータを収集しました。
8992種の化学物質を2つのクラスに分類するために使用された1024の2値属性(分子フィンガープリント)の値を含むデータセット(非常に毒性が強い/陽性、毒性が強くない/陰性)。
このデータセットには、1970年、1980年、1990年のロサンゼルスおよびロングビーチ地域のPUMS国勢調査データが含まれています。
SIFT10Mでは、各データポイントはオープンソースのVLFeatライブラリによってCaltech-256から抽出されたSIFT特徴量です。SIFT特徴量の対応するパッチが提供されています。
本データセットは、ハイブリッド屋内測位方式の比較評価のために作成されたものです。発表されたデータセットには、W-LANとBluetoothインタフェース、および磁力計からのデータが含まれています。
UJIIndoorLoc-Magは、地球の磁場変動に依存した屋内測位システムをテストするための屋内測位データベースです。
この研究では、画像セグメンテーションなしでバングラ(ベンガル)語の手書きテキストの全ページを認識できる、ニューラルネットワークに基づくオフライン手書きテキスト認識(HTR)モデルアーキテクチャを開発しました。ベンガル語はリソースに制約のあるインド系言語であるため、バングラ手書き文字のスキャン画像からなる適切な注釈付きデータセットが不足しています。本研究では、様々な年齢層、職業、性別の投稿者から収集した全ページの手書き文字からなる新しいデータセット「Bongabdo」を紹介します。さらに、最近提案された最先端のImage-to-Sequenceアーキテクチャを、ハイパーパラメータの設定を変えながらこれらの画像に適用し、文字誤り率(CER)、単語誤り率(WER)、シーケンス誤り率(SER)の観点から評価し、最終的に比較研究を行います。
データセットは、直流電気機械に関するユーザの学習活動と知識レベルに関するものです。データセットは、オンラインのWebコースから取得し、私の博士論文で報告したものです。
GitHubユーザーのソーシャルネットワークで、ユーザーレベルの属性、接続性データ、バイナリターゲット変数が含まれています。
英語の戯曲(1585-1610年)、181の戯曲を含む初期の印刷版から転写。戯曲を「サンプル」とし、それらの戯曲に登場する単語の頻度を「特徴」としてデータセットを構成します。
Demospongiaeクラス分類領域の海綿類。
このファイルには、パデュー大学の8人のUNIXコンピュータユーザのコマンド履歴から、最大2年間に渡って抽出された9セットのサニタイズされたユーザデータが含まれています。
BAUM-1データセットには、31人の被験者から収集した1184個のマルチモーダルな顔のビデオクリップが含まれています。1184個のビデオクリップには、13の感情状態と精神状態の自発的な表情と発話が含まれています。
最大の著者帰属データセットを作成するために、50人の著名な著者の作品を抽出しました。非網羅的な学習を行うために、トレーニングでは45人の著者が存在するのに対し、テストでは50人の著者が存在します。
メタデータは、特定のデータセットに対してどの分類方法が適切かについてアドバイスを与えるために使用されました(Statlogプロジェクトの結果から抜粋)。
このデータセットは、2人の利用者が日常的に自宅で行っているADLに関する情報から構成されています。
インスタンスラベルを用いたマルチラベルマルチインスタンス学習のためのデータセット。このデータセットには、1)DeliciousT140データセットから抽出した12234文書(トレーニング8251、テスト3983)、2)全文書のクラスラベル、3)テスト文書の文のサブセットのラベルが含まれています。
イラクの観光地のシミュレーションデータセット イラクの観光地の位置(経度、緯度)と興味のある場所のタイプをシミュレートしたデータセット。
Nomaoは多くのソースから場所に関するデータ(名前、電話、位置情報…)を収集しています。重複排除は、どのデータが同じ場所を参照しているかを検出することで構成されています。データセットのインスタンスは2つのスポットを比較します。
S21の測定は、2.4GHzを中心とした100MHz帯をカバーする0.167MHz間隔の601点の周波数点を含む10掃引で構成されています。
このデータセットは、デジタルコルポスコピーの主観的な品質評価を探ります。
大腸菌ゲノム中の各ORF(潜在遺伝子)の特徴を示すデータ。配列、相同性(他の遺伝子との類似性)、構造情報、機能(既知の場合)が提供されています。
これは、オンラインの手書きアッサム文字8235文字のデータセットです。オンライン」プロセスでは、テキストが電子ペンでデジタル化されたタブレットに書き込まれ、データが取得されます。
PANDORは、Purchase(http://www.purch.com/)が提供するオンラインレコメンデーションのための斬新で一般に公開されているデータセットです。
データセットは、胸部に装着したウェアラブル加速度計からデータを収集しています。このデータセットは、活動認識の研究を目的としています。
ある定理が与えられたとき、1次プローバーが使用したときに、5つのヒューリスティックのうちどれが最も速く証明できるかを予測してください。6つ目の予測では、定理が難しすぎる場合には、証明を試みることを辞退します。
TurkishSpamデータセットには、トルコ語で書かれたスパムと通常の電子メールが含まれています。
アジア各国のLastFMユーザーのソーシャルネットワーク。関連するタスクは、社会的な関係性やアーティストの「いいね!」をもとに出身国を予測すること。
このデータセットには、健常者50人の左目と右目のOCTデータ(mat形式)とカラー眼底データ(jpg形式)が含まれています。
結核菌の各ORF(潜在遺伝子)の特徴を与えたデータ。配列、相同性(他の遺伝子との類似性)、構造情報、機能(既知の場合)が掲載されています。
ChIP-seq実験は、特定のサンプル内の特定のゲノム位置でのタンパク質の修飾または結合を特徴づける。これらのデータの機械学習問題は、構造化された二値分類です。
光バースト交換ネットワーク(OBS)におけるバーストヘッダパケット(BHP)洪水攻撃のリスクを特定する上での主要な課題の1つは、信頼性の高い過去のデータが不足していることです。
データセットは、J.S.バッハ(1675-1750)の60のコラール(5665のイベント)で構成されています。各コラールの各イベントは、101個のコードラベルのうち1個を用いてラベル付けされ、14個の特徴量で記述されています。
このデータはUCIのCalIt2棟の正門から来ています。
データは2値攻撃点ベクトルとpartido-altoベースのパラダイムに従ったclave-directionクラスです。
身体動作データセットは、人間の活動性を測定する正常な身体動作10件と攻撃的な身体動作10件を含みます。このデータは、10人の被験者がVicon 3Dトラッカーを使用して収集したものです。
データセットはセグメンテーションタスクに適しています。このデータセットには、ロシア語の異なる新聞や雑誌からスキャンされた101ページが含まれており、基底真実ピクセルベースのマスクが付いています。
このデータセットには、与えられたトピックに関するユーザーレビューから抽出された文章が含まれる。トピックの例としては、「トヨタ・カムリの性能」や「iPod nanoの音質」などがある。
DBWorldのメーリングリストから手動で収集した64通の電子メールが含まれています。それらは以下のように分類されています。カンファレンスのお知らせ」と「その他すべて」に分類されています。
標準データセットには数値シーケンシャルデータストリームがないため、このデータセットはオリジナルのT40I10D100Kデータセットから生成されています。
このデータセットには、1987年から2015年までに出版されたNIPSの会議論文の全文に含まれる単語の分布が含まれています。
データセットは、Nisha MadhulikaチャンネルとKabita’s Kitchenチャンネルというインド料理のトップ2チャンネルから取得した。 データセットはヒングリッシュ言語です。
12人のユーザーから5種類の手の姿勢を、モーションキャプチャー環境で手袋の指に取り付けられたラベルのないマーカーを使って記録しました。解像度やオクルージョンの関係で、値が欠落していることがよくあります。
NYSK (New York v. Strauss-Kahn)は、ドミニク・ストラウス=カーン元IMF理事に対する性的暴行疑惑に関する事件(2011年5月)についての英語ニュース記事を集めたものです。
このデータセットには、Pioneer-1移動ロボットの時系列センサー読み取り値が含まれています。このデータは、ロボットが一定期間行動をとり、制御を経験する「経験」に分けられています。
このデータセットには、スマートフォン(Sony Xperia XA1)で取得したRSSIが含まれています。信号はiTAGと呼ばれるBLE製品から送信されています。位置の欄は、建物の入口にあるiTAGの位置を示しています。
このデータセットは、150人の被験者(イランの男性従業員全員がアバダン職業(産業)医学クリニックを受診している)の記録と52の特徴から構成されている。
このデータセットは、時系列データベースのインデックス作成スキームをテストするために設計されています。データは非常に周期的に見えますが、決して正確に繰り返すことはありません。
このデータセットは、ハイブリッド屋内測位法の比較評価のために作成されました。発表されたデータセットには、W-LANとBluetoothインタフェース、地磁気計からのデータが含まれています。
これらの非常に不均衡なバイオアッセイのデータセットは、HTS技術を用いて実行できる様々なタイプのスクリーニングに由来しています。12のバイオアッセイから21のデータセットが作成されました。
ファイル「nettalk.data 」には、20,008個の英単語のリストと、各単語の音素転写が含まれています。タスクは、適切な音素を生成するためのネットワークを訓練することです。
文章分類(ロシア語)。コーパスはWikipediaの文章を文章に分割したものである/各文章にはトピックラベルが付けられています。
このデータセットは、1999年の計算知能と学習(COIL)コンテストのものです。このデータには、河川の化学物質濃度と藻類密度の測定値が含まれています。
KDC-4007データセットコレクションは、クルド語ソラニのニュースや記事に関するカテゴリで使用されるクルド語文書分類テキストです。
このデータセットは、2014年のAAAI会議で採択された論文(論文タイトル、著者、抄録、粒度の異なるキーワードを含む)のメタデータに影響を与えます。
データはUNIPENのような形式で書かれた文字で構成されている
1687種類の化学物質を2つのクラス(アンドロゲン受容体への結合剤/陽性、アンドロゲン受容体への非結合剤/陰性)に分類するために使用された1024の2値属性(分子フィンガープリント)。
研究プロジェクトではこのデータベースを紹介し、欠陥の有無を判断するために処理される栗の画像を示す。
このデータセットには、タッチモバイルデバイス(Nexus 7)で収集されたキーストロークダイナミクスデータが含まれています。データセットには、56人の被験者に対して1被験者あたり51レコード、2856レコードが含まれています。
このデータセットは、台湾のNTHUのShan-Hung WuとDataLabのメンバーによって収集されました。100人のユーザーの中から325人のユーザーが感知したクラスタと、それに対応する説明があります。
UbiqLogは、35人のユーザーのスマートフォン上で約2ヶ月間動作するスマートフォンのライフログツールです。
このデータは、1999 年 9 月 28 日に msnbc.com を訪問したユーザーのページ訪問数を示しています。訪問はURLカテゴリ(説明を参照)のレベルで記録され、時間順に記録されます。
離散トーン画像(DTI)が利用可能であり、詳細な解析が必要です。ここでは、DTIの研究をしている人のために、このデータセットを作成しました。
イラン国営テレビで放送されたジョパーディゲームから集められたペルシャ語の質問。
Pat: USPTOアルゴリズムコンペで使用されたデータ。米国特許の図面ページが含まれており、手動で図や部品のラベルが付けられています。
このデータセットは、2014年のICMLA会議のアクセプトされた論文のメタデータ、ID、論文タイトル、著者のキーワード、アブストラクト、およびそれらが公開されたセッションを妥協しています。
このデータセットは、最大10のロイタークラスから200のファイルを読み上げ、自動音声認識システムを使用して対応するテープ起こしを作成することで作成されています。
トルコ語テキスト分類のベンチマークデータセット。TTC-3600データセットは、トルコの6つの有名ポータルから3,600件の文書を分類したトルコのニュースや記事を集めたものです。ARFF Weka形式で4つの異なる形式があります。
人名の機能として「+」または「-」で表示されたバッジ
OCLAR (Opinion Corpus for Lebanese Arabic Reviews) コーパスは、ホテル、レストラン、ショップなどのサービスのレビューをアラビア語でセンチメント分類するために利用されています。
このデータセットは、(a)NSFの基礎研究賞を記載した129,000件のアブストラクト、(b)アブストラクトから抽出したBag-of-wordデータファイル、(c)Bag-of-wordの索引付けに使用した単語のリストから構成されています。
このデータセットは、2013年のAAAI会議で採択された論文(メイントラックのみ)のメタデータ(論文タイトル、著者名、抄録、粒度の異なるキーワードを含む)を妥協したものです。
手書きのデータセットは、170人の参加者から合計5,180の数字のパターンで収集された。データセットはPrince Mohammad Bin Fahd University – Urdu/Arabic Database(PMU-UD)と名付けられた。
目的は、この植物シグナリングネットワーク内のノードの相互作用を記述するブーリアンルールのセットを決定することです。データセットには、非同期更新スキームを用いた300回の個別のブール型疑似力学シミュレーションが含まれています。
Northixは、2つの実体関係データベースのデータ統合のためのスキーママッチングのベンチマーク問題として設計されています。
主に物理科学の研究から収集した事例が多く、関数探索アルゴリズムの評価を目的としています。
Sattriya_Dance_Single_Hand_Gesturesデータセットには、29のSattriyaダンスの片手ジェスチャーの1450枚の画像が含まれている。
286人の被験者から収集した1047個のビデオクリップからなる多言語オーディオビジュアル情動顔データベース。
特定のパラメータ、特徴量の数、正の例と負の例の割合に基づいて、アプリケーション領域を生成します。
このデータセットには、IIWA14-R820ガゼボロボットモデルの10個の軌跡が含まれています。Shareef (2016)の論文「Improving the Inverse Dynamics Model of the KUKA LWR IV+ using Independent Joint Learning」に基づいています。
11K以上の孤立した手書き文字を持つペンベースのデータベース
ピリミジンとトリアジンの2つのデータセットが与えられています。
Logic Theorist のすべてのコード
AutoUnivは、分類作業のための高度なデータジェネレータです。実際のデータのニュアンスや不均一性を反映させることを目的としています。データは.csv、ARFF、C4.5形式で生成できます。
ドキュメントのない様々なデータセット(自由に探索してください
学習すべき5つの概念を述語で表現したもの
道徳的推論を質的にシミュレートする角句モデル; 理論には否定されたリテラルが含まれます
帰納的学習システムの特徴量を生成するための研究に使用される
小規模領域理論
blocksworld, eightpuzzle, schedworldなどのドメインの詰め合わせ。
このデータセットには、トルコのクラウドファンディングキャンペーンに関するデータが含まれています。データセットには、クラウドファンディングプロジェクト、プロジェクトの説明、ターゲットを絞った資金と調達した資金、キャンペーン期間、支援者の数など、さまざまな特性が含まれています。2022年に収集されたこのデータセットは、トルコのクラウドファンディングエコシステムを理解し分析したい研究者にとって貴重なリソースを提供します。合計で、6つの異なるプラットフォーム上の1500以上のプロジェクトからのデータがあります。このデータセットは、自然言語処理(NLP)モデルや機械学習モデルのトレーニングに特に役立ちます。このデータセットは、成功したクラウドファンディング キャンペーンの特性に関する研究の重要な参照ポイントであり、トルコの起業家、投資家、研究者に包括的な情報を提供します。
このデータセットは、1000個の円に配置された10000個の2次元ポイントで構成され、それぞれに100個のポイントが含まれています。これは、明確で構造化されたクラスタリングの課題を提供することにより、k-meansなどのクラスタリング アルゴリズムを評価するように設計されています。
ピンバック:UCI 機械学習リポジトリのデータセット一覧 | トライフィールズ | 日刊☆なんでもトピックス!
ピンバック:深層学習いろいろ - TECHBIRD | TECHBIRD - プログラミングを楽しく学ぼう