"Strutturato" e "non strutturato" sono termini usati per classificare i dati in base alle regole di formato e schema o alla loro mancanza.
I dati strutturati hanno uno schema fisso e si inseriscono ordinatamente in righe e colonne, come i nomi e i numeri di telefono. I dati non strutturati non hanno uno schema fisso e possono avere un formato più complesso, come i file audio e le pagine web.
Ecco le principali aree di differenza tra dati strutturati e non strutturati:
Continua a leggere per un'analisi approfondita delle definizioni, dei casi d'uso e dei benefici dei dati strutturati e non strutturati.
I dati strutturati sono organizzati in un formato chiaro e predefinito. La natura standardizzata dei dati strutturati li rende facilmente decifrabili da strumenti di analytics dei dati, algoritmi di machine learning e utenti umani.
I dati strutturati possono includere sia dati quantitativi (come prezzi o cifre sul fatturato), sia dati qualitativi (come date, nomi, indirizzi e numeri di carta di credito).
Ad esempio, un rapporto finanziario con nomi di società, valori di spesa e periodi di reporting organizzati in righe e colonne è considerato un dato strutturato.
I dati strutturati vengono generalmente archiviati in formati tabulari, come fogli di calcolo Excel e database relazionali (o database SQL). Gli utenti possono immettere, cercare e manipolare in modo efficiente i dati strutturati all'interno di un sistema di gestione di database relazionali (RDBMS) utilizzando lo structured query language (SQL).
Sviluppato da IBM nel 1974, il linguaggio di query strutturato è il linguaggio di programmazione utilizzato per gestire i dati strutturati.
I casi d'uso per i dati strutturati includono:
Newsletter di settore
Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e altro con la newsletter Think. Leggi l'Informativa sulla privacy IBM.
L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.
I benefici dei dati strutturati sono legati alla loro facilità di utilizzo e di accesso:
Le sfide dei dati strutturati ruotano attorno alla mancanza di flessibilità dei dati:
I dati non strutturati non hanno un formato predefinito. I set di dati non strutturati sono in genere di grandi dimensioni (terabyte o petabyte di dati) e comprendono il 90% di tutti i dati generati dall'azienda.
Questo volume elevato è dovuto all’emergere dei big data, ovvero gli enormi e complessi set di dati provenienti da Internet e da altre tecnologie connesse.1
I dati non strutturati possono contenere dati testuali e non, così come dati qualitativi (commenti sui social media) e quantitativi (cifre incorporate nel testo).
Esempi di dati non strutturati provenienti da fonti di dati testuali includono:
Esempi di dati non strutturati non testuali includono:
Poiché i dati non strutturati non hanno un modello di dati predefinito, non sono facilmente elaborati e analizzati tramite strumenti e metodi di dati convenzionali.
Sono meglio gestiti in database non relazionali o NoSQL oppure in data lake, progettati per gestire enormi quantità di dati non elaborati in qualsiasi formato.
Spesso, machine learning, analytics avanzata ed elaborazione del linguaggio naturale (NLP) sono utilizzati per estrarre informazioni preziose dai dati non strutturati.
I casi d'uso includono:
I benefici dei dati non strutturati riguardano il formato, la velocità e lo storage dei dati:
Le problematiche dei dati non strutturati in termini di competenze e risorse disponibili:
L'AI può elaborare rapidamente grandi volumi di dati. Questa è una funzionalità chiave per le organizzazioni che vogliono trasformare enormi quantità di dati non strutturati in insight fruibili.
Con il machine learning e l'elaborazione del linguaggio naturale (NLP), gli algoritmi di AI possono setacciare i dati non strutturati per trovare modelli e fare previsioni o raccomandazioni in tempo reale.
Le organizzazioni possono quindi incorporare questi modelli analitici in dashboard esistenti oppure in application programming interface (API) per automatizzare il processo decisionale.
I dati semi-strutturati sono il "ponte" tra i dati strutturati e quelli non strutturati. Sono utili per il web scraping e per l'integrazione dei dati.
I dati semi-strutturati non hanno un modello di dati predefinito. Tuttavia, utilizzano i metadati (ad esempio tag e indicatori semantici) per identificare caratteristiche specifiche dei dati e scalare i dati in record e campi preimpostati.
I metadati consentono in ultima analisi di catalogare, interrogare e analizzare meglio i dati semi-strutturati rispetto ai dati non strutturati.
Esempi di dati semi-strutturati sono i file JavaScript Object Notation (JSON), i valori separati da virgole (CSV) e i file eXtensible Markup Language (XML).
Un esempio più comunemente citato è l'e-mail, dove alcune sezioni di dati hanno un formato standardizzato (come intestazione e oggetto) ma contengono dati non strutturati all'interno di tali sezioni.
Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.
Watsonx.data ti consente di scalare l'analytics e l'AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.
Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.
1,2 “Untapped value: What every executive needs to know about unstructured data," IDC, agosto 2023.