非結構化數(shù)據(jù)是數(shù)據(jù)結構不規(guī)則或不完整,沒有預定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。
包括所有格式的辦公文檔、文本、圖片、XML, HTML、各類報表、圖像和音頻/視頻信息等等。計算機信息化系統(tǒng)中的數(shù)據(jù)分為結構化數(shù)據(jù)和非結構化數(shù)據(jù)。非結構化數(shù)據(jù)其格式非常多樣,標準也是多樣性的,而且在技術上非結構化信息比結構化信息更難標準化和理解。非結構化數(shù)據(jù)的特點:分析數(shù)據(jù)不需要一個專業(yè)性很強的數(shù)學家或數(shù)據(jù)科學團隊,公司也不需要專門聘請IT精英去做。真正的分析發(fā)生在用戶決策階段,即管理一個特殊產(chǎn)品細分市場的部門經(jīng)理,可能是負責尋找最優(yōu)活動方案的市場營銷者,也可能是負責預測客戶群體需求的總經(jīng)理。終端用戶有能力、也有權利和動機去改善商業(yè)實踐,并且視覺文本分析工具可以幫助他們快速識別最相關的問題,及時采取行動,而這都不需要依靠數(shù)據(jù)科學家。