IBM apre il codice del super spider

Il gigante di Armonk ha rilasciato sul canale open source il cuore di una tecnologia, chiamata UIMA, che si avvale di sofisticati algoritmi di ricerca semantica per trovare informazioni in modo più preciso ed efficace
Il gigante di Armonk ha rilasciato sul canale open source il cuore di una tecnologia, chiamata UIMA, che si avvale di sofisticati algoritmi di ricerca semantica per trovare informazioni in modo più preciso ed efficace


Armonk (USA) – IBM ha donato alla comunità open source il codice del framework Java alla base di UIMA (Unstructured Information Management Architecture), una tecnologia pensata per la gestione e l’analisi dell’informazione non strutturata. In una società che ha fatto dell’informazione la sua merce di scambio più preziosa, una tecnologia come UIMA è destinata ad acquisire un ruolo centrale sia per le aziende che per i governi. O almeno così spera IBM.

UIMA è una piattaforma aperta e modulare per la creazione di applicazioni capaci di recuperare i dati non più soltanto in base a semplici parole chiave, come i tradizionali spider del Web, ma anche in base a concetti . Ciò permette ad esempio di identificare relazioni tra dati che, al contrario di quanto avviene nei database tradizionali, non sono organizzati secondo alcuna regola o classificazione.

La tecnologia di Big Blue si avvale di algoritmi per la ricerca e analisi semantica del testo capaci di attribuire un senso alle informazioni in relazione al contesto in cui si trovano: ciò permette, oltre a quanto detto in precedenza, di incrementare l’efficacia dei “setacci” digitali utilizzati per filtrare le informazioni su Internet o all’interno di un’azienda.

Il framework di UIMA può essere utilizzato per cercare dati e informazioni all’interno di file e fonti destrutturate, quali ad esempio documenti, immagini, file multimediali, e-mail, report e pagine web.

Non sembra affatto un caso che il progetto UIMA sia nato proprio a ridosso del tragico crollo delle Torri Gemelle, avvenuto nel 2001, e sia ufficialmente finanziato dalla DARPA (Defense Advanced Research Projects Agency): è infatti noto come il Governo USA, in risposta alla minaccia terroristica, abbia steso in questi anni una fitta e controversa rete per il controllo delle comunicazioni, e necessiti dunque di sofisticate tecnologie per l’analisi e la selezione delle informazioni rilevanti.

Al progetto UIMA, che ora ha trovato casa su SourceForge.net , hanno collaborato diverse università americane come la Carnegie Mellon, la Columbia, la Stanford e la Massachusetts Amherst. Il codice del framework è accompagnato dalla Common Public Licence , e si trova già alla base di vari software commerciali sia di IBM che di terze parti. In Italia tra le prime aziende ad aver abbracciato tale tecnologia vi è Alethes , che intende incorporare UIMA nella propria architettura Open Eyes 2005 per la gestione delle informazioni testuali. La società sostiene che UIMA è destinata a diventare una tecnologia standard in diversi contesti operativi del business aziendale, dalla gestione documentale all’information retrieval, dalla business intelligence al text mining.

Link copiato negli appunti

Ti potrebbe interessare

25 01 2006
Link copiato negli appunti