Metódy a modely pre analýzu prúdov dát


Názov projektu v anglickom jazyku: Methods and models for data stream analysis

Číslo projektu: 1/0493/16

Zdroj financovania: Vedecká grantová agentúra MŠVVaŠ SR a SAV

Doba riešenia projektu: 2016-2019

Vedúci projektu: prog. Ing. Ján Paralič, PhD.

Anotácia projektu


Anotácia v slovenskom jazyku

Prúdy dát sú charakteristické rýchlym, často asynchrónnym prísunom nových dát. Príkladom takýchto dát sú dáta z mobilných zariadení, prúd klikov pri prehliadaní webu, hodnoty automaticky merané zo senzorov a meračov napr. v rámci IoT (Internet of Things) platformy, a pod. Častým zdrojom prúdových dát vo forme krátkych textov sú aj sociálne média. O význame výskumu problematiky analýzy prúdov dát svedčia aj pozvané prednášky a tutoriály, na prestížnych svetových konferenciách v posledných rokoch. Hlavným cieľom predkladaného návrhu projektu je navrhnúť a verifikovať nové metódy a modely pre analýzu prúdov dát. Zameriame sa pritom na tri vybrané aspekty tejto problematiky:

  • 1. Architektúry a modely pre zber, filtrovanie a agregáciu prúdov dát určitých typov.
  • 2. Metódy pre získavanie, modelovanie a poskytovanie rôznych typov znalostí v rámci prúdov dát.
  • 3. Metódy pre hodnotenie efektívnosti spracovania a analýzy prúdov dát.

Anotácia v anglickom jazyku

Data streams are characterized by rapid, often asynchronous supply of new data. If this data is not immediately processed or stored, it may be lost. Examples of such data include data from mobile devices, clickstreams, automatically measured values from sensors and devices i.e. within some Internet of Things platform, etc. Frequent sources of data streams in the form of short texts are social media. The importance of research on analysis of data streams is evidenced also by the invited lectures and tutorials at prestigious international conferences in recent years. The main objective of the this project proposal is to design and verify new methods and models for analyzing data streams, focusing on three selected aspects:

  • 1. Architectures and models for collecting, filtering and aggregation of certain types of data streams.
  • 2. Methods for acquisition, modeling and supplying various types of knowledge within data streams.
  • 3. Methods for evaluation of data stream processing and analysis efficiency

Ciele projektu




Hlavným cieľom projektu je navrhnúť a verifikovať nové metódy a modely pre analýzu prúdov dát, pričom sa chceme zamerať na tieto aspekty skúmanej problematiky:

Architektúry a modely pre zber, filtrovanie a agregáciu prúdov dát určitých typov.

    - Návrh a overenie hybridnej lambda architektúry kombinujúcej spracovanie asynchrónnych správ v reálnom čase s dávkovým spracovaním historických dát.
    - Skúmanie škálovateľnosti a konzistentnosti metód pre spracovanie prúdových dát založených na spracovaní jednotlivých záznamov a metód založených na mikro-dávkovom spracovaní.
    - Navrhnúť metodológiu pre implementáciu a nasadenie architektúry podľa špecifických charakteristík požadovaných pre dané riešenie.

Metódy pre získavanie, modelovanie a poskytovanie rôznych typov znalostí v rámci prúdov dát.

    - Návrh a overenie nových prístupov pre detekciu a sledovanie zmien nájdených konceptov (vzorov) v dátach, t.j. modelov nájdených znalostí ako klasifikačné triedy, reprezentatívne zhluky, významné pravidlá, anomálie, či iné modely popisujúce určitý aspekt príslušného prúdu dát.
    - Návrh a overenie nových metód pre modelovanie samotného toku dát (sekvencií) poskytujúcich nielen okamžitú predikciu, ale aj redukciu informácie z aktuálneho modelu, ktorý sa v čase inkrementálne mení a adaptuje s dôrazom na kombináciu algoritmov z oblasti strojového učenia a prístupov konceptuálneho modelovania dát.
    - Návrh a overenie nových metód pre dynamickú adaptívnu analýzu názorov a emócii v prúde dát zo sociálnych médií.

Metódy pre hodnotenie efektívnosti spracovania a analýzy prúdov dát.

    - Návrh a overenie vhodných benchmarkov pre multikriteriálne vyhodnotenie vybraných typov procesov analýzy prúdov dát.
    - Návrh a overenie nových metód na semi-automatické hodnotenie efektívnosti nielen jednotlivých častí procesu spracovania a analýzy prúdov dát ale aj celkovej pridanej hodnoty pre používateľa.

Spolupráca s praxou



IBM
cost

Výstupy


KKUI
FEI
CHI