The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Увидела свет платформа для распределённой обработки данных Apache Hadoop 2

16.10.2013 20:38

Организация Apache Software Foundation представила релиз Apache Hadoop 2, свободной платформы для организации распределённой обработки больших объёмов данных с использованием парадигмы map/reduce, при которой задача делится на множество более мелких обособленных фрагментов, каждый из которых может быть запущен на отдельном узле кластера. Хранилище на базе Hadoop может охватывать тысячи узлов и содержать эксабайты данных (общий объём цифровой информации на Земле оценивается в 161 эксабайт).

В состав Hadoop входит реализация распределенной файловой системы Hadoop Distributed Filesystem (HDFS), автоматически обеспечивающей резервирование данных и оптимизированной для работы MapReduce-приложений. Для упрощения доступа к данным в Hadoop хранилище разработана БД HBase и SQL-подобный язык Pig, который является своего рода SQL для MapReduce, запросы которого могут быть распараллелены и обработаны несколькими Hadoop-платформами. Проект оценивается как полностью стабильный и готовый для промышленной эксплуатции. Hadoop активно используется в крупных промышленных проектах, предоставляя возможности, аналогичные платформе Google Bigtable/GFS/MapReduce, при этом компания Google официально делегировала Hadoop и другим проектам Apache право использования технологий, на которые распространяются патенты, связанные с методом MapReduce.

Hadoop-кластеры, обрабатывающие десятки петабайт информации, развёрнуты в таких компаниях, как Yahoo, Facebook, Amazon, AOL, Apple, eBay, HP, LinkedIn, Netflix, Rackspace и Twitter. Рекордсменом является Hadoop-кластер Yahoo, состоящий из 35 тысяч узлов. Hadoop лежит в основе платформы Oracle Big Data и некоторых продуктов компаний Microsoft, IBM, Teradata и SAP. Hadoop является одним из ключевых звеньев суперкомпьютера IBM Watson, который выиграл сражение с лучшими игроками телевизионной игры-викторины "Jeopardy!".

Особенности выпуска Apache Hadoop 2:

  • Реализация YARN (MapReduce 2.0), позволяющего одновременно запускать различные приложения для обработки данных (например, Apache Hadoop MapReduce и Apache Storm) и сервисы (например, Apache HBase). Основная идея YARN заключается в выделении в отдельные демоны частей, связанных с отслеживанием выполнения заданий (JobTracker), управленем ресурсами и планированием работ. Ключевые компоненты YARN: ResourceManager (RM, управляет распределением всех ресурсов системы для всех приложений), NodeManager (координирует работу каждого узла) и ApplicationMaster (AM, запускается для каждого приложения и обеспечивает выполнение заданий с использованием полученных от ResourceManager ресурсов).
  • Обеспечение высокой доступности для HDFS;
  • Средства для объединения разных экземпляров HDFS (Federation HDFS);
  • Возможность создания снапшотов данных в HDFS;
  • Поддержка доступа к HDFS через NFSv3;
  • Обеспечение бинарной совместимости с существующими приложениями MapReduce, созданными для Apache Hadoop 1.x;
  • Поддержка платформы Microsoft Windows.


  1. Главная ссылка к новости (https://blogs.apache.org/found...)
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/38184-hadoop
Ключевые слова: hadoop, cluster
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (20) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.4, Аноним (-), 08:44, 17/10/2013 [ответить] [﹢﹢﹢] [ · · · ]  
  • –4 +/
    МОжет и в России когда-нибудь будут компании, которые используют Hadoop . Не всё же время нефть качать
     
     
  • 2.15, Devider (ok), 09:38, 17/10/2013 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Они есть.
     
  • 2.17, Аноним (-), 10:01, 17/10/2013 [^] [^^] [^^^] [ответить]  
  • +/
    Надо сделать DCM4CHEE или аналогичный PACS на Hadoop, а не на связке MySQL/DICOMDIR (другие PACS используют практически ту же медленную архитектуру). Иначе не сделать быстрый PACS.
     
  • 2.30, gleb_se (ok), 21:35, 17/10/2013 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Вроде Mail.ru использует Hadoop для поиска: http://habrahabr.ru/company/mailru/blog/167297/
     
  • 2.31, edwin (??), 22:15, 17/10/2013 [^] [^^] [^^^] [ответить]  
  • +/
    > МОжет и в России когда-нибудь будут компании, которые используют Hadoop . Не
    > всё же время нефть качать

    Знаю несколько довольно крупных компаний. у которых на нем развернуто решение ряда внутренних задач ... беда в том, что компании эти не афишируют этого факта и узнать об этом можно только "за рюмкой чая" с коллегами ...  

     
  • 2.32, all_glory_to_the_hypnotoad (ok), 22:42, 18/10/2013 [^] [^^] [^^^] [ответить]  
  • +/
    его используют многие компании для задач data mining'а. В частности все известные интернет проекты и рекламщики. Некоторые упорыши додумались даже на нём поиск делать
     

  • 1.5, Аноним (-), 08:46, 17/10/2013 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Почему Википедию не реализуют на Hadoop? Быстрее бы работала на порядки.
     
     
  • 2.7, Забей (?), 08:51, 17/10/2013 [^] [^^] [^^^] [ответить]  
  • +5 +/
    > Почему Википедию не реализуют на Hadoop? Быстрее бы работала на порядки.

    И какие распределенные вычисления нужно делать википедии?

     
     
  • 3.10, Аноним (-), 08:58, 17/10/2013 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Hadoop ведь можно использовать как поисково и распределённую систему, позволяющую быстро выдавать результат из большого количества серверов. Это как раз и нужно в Википедии - сейчас Википедия хранит данные в MySQL. Конечно количество запросов к Википедии немаленькое, но иногда она сильно тормозит. Map/Reduce мне кажется помогла бы убыстрить Википедию
     
     
  • 4.13, VoDA (ok), 09:23, 17/10/2013 [^] [^^] [^^^] [ответить]  
  • +/
    > Конечно количество
    > запросов к Википедии немаленькое, но иногда она сильно тормозит. Map/Reduce мне
    > кажется помогла бы убыстрить Википедию

    Простите, а как MR поможет ускорить Wikipedia? MR позволяет довольно быстро анализировать/агрегировать данные, но у Wikipedia мало именно агрегаций. Основная их нагрузка это чтение и запись wiki-страничек. В данном случае им нужна распределенность и отказоустойчивость. По сути любая распределенная система хранения вида multi-master подойдет.

    PS скорее всего HBase, что поверх Hadoop тоже подойдет для Wikipedia. Только будут ли они переделывать движок системы...

     
     
  • 5.16, тигар (ok), 09:53, 17/10/2013 [^] [^^] [^^^] [ответить]  
  • +/
    может таки hbase поверх hdfs ? ;-)

    p.s. ох и много же времени им понадобилось чтобы дойти до "Поддержка доступа к HDFS через NFSv3;"
    а то вебдав да еще какие-то костыли только были.

     
     
  • 6.22, VoDA (ok), 12:01, 17/10/2013 [^] [^^] [^^^] [ответить]  
  • +/
    > p.s. ох и много же времени им понадобилось чтобы дойти до "Поддержка доступа к HDFS через NFSv3;"

    Самому Hadoop это не сильно и нужно. Точнее не нужно совсем. Стало быть понадобилось кому то из потребителей. Когда сделали и оттестили, тогда и вошло в релиз.

    PS не понимаю нужность HDFS через NFS. не будете же вы располагать обычные данные (файловые шары / файлы виртуалок / etc) на HDFS. загрузить данные для RM можно и через шелл. а вероятнее вообще через сборщика данных ;)

     
     
  • 7.23, тигар (ok), 12:11, 17/10/2013 [^] [^^] [^^^] [ответить]  
  • +/
    >> p.s. ох и много же времени им понадобилось чтобы дойти до "Поддержка доступа к HDFS через NFSv3;"
    > Самому Hadoop это не сильно и нужно. Точнее не нужно совсем. Стало
    > быть понадобилось кому то из потребителей. Когда сделали и оттестили, тогда
    > и вошло в релиз.

    самому хадупу (а что/кто это?) это если и нужно, то оно у них есть, в публичной версии, как видим, не было.
    > PS не понимаю нужность HDFS через NFS. не будете же вы располагать
    > обычные данные (файловые шары / файлы виртуалок / etc) на HDFS.
    > загрузить данные для RM можно и через шелл. а вероятнее вообще
    > через сборщика данных ;)

    элементарно. сервис генерит дофига и еще немного логов, внутри этой жавахрени оно обрабатывается нужным образом. теперь сервис писать может их прям в туда, без лишней фигни ;-)
    ну и еще: некоторые юзают хдфс именно как распределенную fs

     
  • 4.33, all_glory_to_the_hypnotoad (ok), 22:44, 18/10/2013 [^] [^^] [^^^] [ответить]  
  • +/
    нельзя.
     
  • 3.18, Аноним (-), 10:02, 17/10/2013 [^] [^^] [^^^] [ответить]  
  • +/
    >> Почему Википедию не реализуют на Hadoop? Быстрее бы работала на порядки.
    > И какие распределенные вычисления нужно делать википедии?

    Под вычислениями давно уже понимают не только математические действия.

     
  • 2.12, VoDA (ok), 09:18, 17/10/2013 [^] [^^] [^^^] [ответить]  
  • –2 +/
    > Почему Википедию не реализуют на Hadoop? Быстрее бы работала на порядки.

    Потому что перенос с одной системы на другую очень затратен. Движок изначально жил на MySQL, потому и MySQL только в несколько извращенном варианте используется.

    ИМХО Cassandra лучше подходит для Википериа-подобных проектов. Но переписывание Движка дорогое удовольствие, а Wikipedia и так каждый год донаты просит.

     
     
  • 3.21, cijic (ok), 11:11, 17/10/2013 [^] [^^] [^^^] [ответить]  
  • +/
    А потом раздаёт сервера, купленные на эти попрошайнические деньги.
     

  • 1.9, Аноним (-), 08:55, 17/10/2013 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Есть лаба в колледже Кнокса http://courses.knox.edu/cs395/labs/lab6.pdf по использованию Hadoopa для анализа xml дампа с Википедией. Выясняют какие страницы важнее других.
     
  • 1.14, Виндузятник (?), 09:35, 17/10/2013 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    А почему на сайте версия 2.2.0, а в новости 2.0.0?
     
     
  • 2.19, Аноним (-), 10:08, 17/10/2013 [^] [^^] [^^^] [ответить]  
  • +/
    На сайте про это написано "2.2.0 - is the first stable release in the 2.x line"
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру