APACHE SPARK LÀ GÌ? TỔNG QUAN VỀ FRAMEWORK MÃ NGUỒN MỞ APACHE SPARK

Apabịt Spark in-memory clusters vẫn là tiêu điểm để ý của nhiều công ty trong câu hỏi vận dụng công nghệ vào so sánh cùng giải pháp xử lý dữ liệu hối hả. Bài viết vẫn trình diễn một tranh ảnh tổng quan liêu độc nhất vô nhị về Apache Spark, một giữa những giải pháp đòi hỏi nên bao gồm Lúc cách xử lý Big data.

Bạn đang xem: Apache spark là gì? tổng quan về framework mã nguồn mở apache spark


Tổng quan về Spark

Apabịt Spark là một open source cluster computing framework được cách tân và phát triển sơ khởi vào khoảng thời gian 2009 vì chưng AMPLab tại đại học California, Berkeley. Sau này, Spark đã có trao cho Apabịt Software Foundation vào năm trước đó với được cải cách và phát triển cho tới lúc này.

*

Spark chất nhận được kiến thiết với phân tích nkhô cứng các mô hình dự đân oán. ngoại giả, nó còn hỗ trợ năng lực truy hỏi xuất tổng thể tài liệu đồng thời, dựa vào vậy ta không nhất thiết phải lấy chủng loại tài liệu – đòi hỏi vì chưng các ngôn ngữ xây dựng nhỏng R. Thêm vào đó, Spark còn cung cấp hào kiệt streaming, được dùng làm xuất bản các mô hình real-time bằng phương pháp hấp thụ toàn bộ tài liệu vào bộ nhớ.

lúc ta tất cả một tác vụ như thế nào đó qúa mập cơ mà tất yêu xử trí bên trên một máy tính xách tay hay một hệ thống, Spark cho phép ta phân chia tác vụ này thành mọi phần dễ dàng làm chủ rộng. Sau kia, Spark đã chạy những tác vụ này trong bộ nhớ lưu trữ, trên các cluster của nhiều VPS khác biệt nhằm khai thác tốc độ truy nã xuất nhanh hao từ RAM. Spark áp dụng API Resilient Distributed Dataphối (RDD) nhằm giải pháp xử lý tài liệu.

*

Spark dấn được nhiều sự tận hưởng ứng từ bỏ cộng đồng Big data bên trên quả đât bởi cung ứng năng lực tính tân oán nhanh hao cùng nhiều thư viện đi kèm hữu ích như Spark Squốc lộ (cùng với hình dạng tài liệu DataFrames), Spark Streaming, MLlib (machine learning: classification, regression, clustering, collaborative filtering, và dimensionality reduction) và GraphX (trình diễn thiết bị thị nhờ kết qủa tính tân oán song song).

*

Những Điểm lưu ý giá bán bên cạnh vận tốc tính toán thù nhanh

Sự solo giản: trong những chỉ trích thường gặp ở Hadoop kia là sự việc phức hợp trong qúa trình phát triển, tuy vậy đây là một giữa những phương pháp tính toán thù 1-1 gỉan với hiệu qủa gíup tăng vận tốc cách xử lý của hệ thống. Txuất xắc vị đòi hỏi người tiêu dùng buộc phải phát âm rạch ròi về MapReduce cùng lập trình sẵn Java, Spark có mặt để gíup gần như fan tiếp cận cùng với công nghệ tính toán thù tuy nhiên tuy nhiên thuận tiện rộng rất nhiều. Người cần sử dụng chỉ việc một vài kiến thức và kỹ năng cơ bản về database cùng cùng với lập trình Pynhỏ bé hay Scala là có thể thực hiện được.

Xem thêm: Download Half Life 1 - Download Half Life Cs 1

Độc lập cùng với những đơn vị cung cấp các dịch vụ Hadoop: Hầu không còn những bên cung cấp hình thức Hadoop đa số cung ứng Spark. Điều này có nghĩa Spark ko nhờ vào vào những bên cung cấp này. Nếu bạn có nhu cầu biến hóa bên hỗ trợ dịch vụ, ta chỉ cần đem hệ thống Spark qua đơn vị cung ứng mới cơ mà ko sợ hãi bài toán mất mát biết tin.

Tại sao lại áp dụng Apađậy Spark

*

ReadabilityExpressivenessFastTestabilityInteractiveFault TolerantBig Data

*

Những cửa hàng vẫn thực hiện Apabịt Spark hiện nay nay

NetflixEbayYahooTwitterOoyala...

*

Spark Languages

ScalaJavaPythonR

Một vài thống kê thụ vị

62% số fan điều tra dùng Spark cùng với HDFS, 46% thực hiện cùng với các hệ quản lí trị DataBase như Stavrou, HBase, Hive sầu, Tachyon, 41% đã sử dụng với Kafka, cùng 29% đã áp dụng cùng Amazon S3.Đối cùng với hệ cai quản trị cluster, 56% đang chạy chủ quyền Spark, 42% thực hiện YARN, với 26% sử dụng Apache Mesos.Đối cùng với ngữ điệu lập trình sẵn, 88% thực hiện Scala, 44% thực hiện Java, với 22% sử dụng Python.Mức độ quan tâm của công ty về Spark: 91% về vận tốc tính tân oán, 77% về việc dễ dàng xây dựng, 71% về Việc dễ dàng phát triển, 64% về các phương pháp so sánh tài liệu tiên tiến và phát triển, 52% về real-time streaming.Sử dụng Spark trên 206 hệ thống EC2 để bố trí 100TB dữ liệu chỉ tốn 23 phút ít. Trong khi ấy, kỉ lục trước đó trên Hadoop sử dụng MapReduce bên trên 2,100 máy tính cần tiêu tốn 72 phút. Điều này còn có nghĩa rằng Spark bố trí tài liệu nhanh vội 3 lần Hadoop mà chỉ áp dụng thấp hơn 10 lần số máy tính.Các nguyên tố được sử dụng trong Spark: 69% áp dụng Spark SQL, 62% áp dụng Dataframes, 58% thực hiện MLib + GraphX, 58% sử dụng Streaming.

*

*

*

*

Kết luận

Đối cùng với những công ty hỗ trợ gỉai pháp, Apabít Spark là một trong lá bài bác đặc trưng vào việc sử dụng các công nghệ cơ bản nhằm kiến thiết số đông data warehouses tiến bộ. Đây là một trong phân khúc thị trường phệ trong nghề IT có tác dụng thu về sản phẩm tỉ đô lệch giá hằng năm.

Spark đưa ra một định nghĩa mới với những có tương lai về sau chính là data lakes. Đây là một trong khu vực tàng trữ một lượng tài liệu lớn lao với tương đối nhiều định dạng khác biệt cùng được truy nã vấn để giải pháp xử lý khi quan trọng. Data lakes chỉ dẫn một framework thương thơm mại hoàn toàn có thể tạo thành một môi trường thiên nhiên tàng trữ vô hạn ngẫu nhiên loại dữ liệu nào.