26 September 2016

Apache Spark

Apache Spark осветява Big Data. Популярният проект Spark Apache помага на Spark Streaming да се справи с обработката почти в реално време най-вече чрез in-memory, micro-batching подход. Той се променя от това да бъде компонент на екосистемата Hadoop до голяма платформа от данни, която е избор на редица предприятия.

Сега, най-голямият Big Data проект с отворен код, Spark се използва за да осигурява драстично увеличена скорост на обработка на данни в сравнение с Hadoop, и като резултат, е много по-естествен, математически, и удобен за програмисти. Той осигурява ефективна рамка с общо предназначение за паралелно изпълнение.

Spark Streaming, която е основната част на Spark, се използва за изпращане на големи парчета от данни с помощта на ядрото чрез разбиване на големите данни на по-малки пакети и след това да ги трансформира, като по този начин ускорява създаването на RDD. Това е много полезно в днешния свят, където анализa на данниte често изисква ресурсите от машини да работят заедно.

Въпреки това, важно е да се отбележи, че Spark има за цел да увеличи, не да замества стека Hadoop. За да се получи още по-голяма стойност от големите данни, компаниите трябва да обмислят използването на Hadoop и Spark заедно за по-добри анализи и възможности за съхранение.

Все по-сложните и големи изисквания на големите данни означават очакванията за иновации да станат високи. Ако все още не са, предприятията ще започнат да виждат, че успехът на клиентите е работа на данните. Фирмите, които не извличат полза от анализите на данни, ще започнат да излизат от бизнеса, а успешни предприятия ще осъзнаят, че ключът към растежа е прецизиране на данните и прогнозен анализ.