Andy Melnikov (nponeccop) wrote,
Andy Melnikov
nponeccop

Categories:

S-Scalability

К вопросу об IO-стеке. Обнаружился прекрасный вопрос для собеседования.

У меня есть 60-метровый GPX-файл (из-за того что там много идиотических ненужных данных, вроде HTML-таблиц в элементе <description/>) с широтой-долготой и таймстемпом, 170к точек. И есть на SSD ~10k фоток всякой хуйни.

Задача вычитать из фоток Exif, и сопоставить по Date Taken с GPS-треком.

Считая, что сопоставлять можно в памяти (т.е. никаких дисковых индексов не требуется), за сколько времени это можно выполнить (wall time работы программы)?

Ну и дальше тему можно бесконечно развивать, если у кандидата обнаружатся какие-то знания по теме.

Например, допустим у нас нет готового Exif-парсера, и нам надо его написать. А фотографий не 10к а миллион. И надо пускать smoke test, который покажет, что парсер на этом миллионе риал ворлд фотографий и нефотографий не падает. И есть лишняя хардварь и лишний писатель тестраннеров за 2 доллара в час. Мы можем как-то исхитриться и положить фотки в scalable store, чтобы прогон тестов был максимально быстрым и ультрадорогое время писателя парсера за 200 долларов в час не тратилось на ожидание? Как это будет выглядеть, какой вообще план действий по ускорению? И т.п.
Tags: io optimization, programming
Subscribe

  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 11 comments