Скачать Статья на тему Сокращение времени оценки схожести текстовых документов на неоднородной многопроцессорной вычислительной системе бесплатно и без регистрации

бесплатно 0

4.5 214

Статья Программирование Программирование, компьютеры и кибернетика Размещено: 02.07.2019

Реализация упрощенного алгоритма шинглов для сокращения времени сравнения документов на неоднородной вычислительной системе на базе многоядерных процессоров и Many Integrated Core (MIC) ускорителей. Поэтапная модификация исходной однопоточной программы.

Аннотация к работе

Сокращение времени оценки схожести текстовых документов на неоднородной многопроцессорной вычислительной системе В работе рассматривается параллельная реализация упрощенного алгоритма шинглов для сокращения времени сравнения текстовых документов на неоднородной вычислительной системе на базе многоядерных процессоров и Many Integrated Core (MIC) ускорителей. Приведены результаты тестирования разработанных прототипов, показывающие возможность сокращения времени сравнения документов до 12 раз при использовании нескольких ускорителей в системе.В данной работе предпринята попытка развития системы с точки зрения сокращения затрат времени на выполнение оценки текстов, а также - в направлении создания удаленного сервиса, использующего базу документов и возможности имеющегося вычислительного комплекса (кластера) ФЭВТ ВОЛГГТУ, оснащенного недавно новыми серверными платформами на базе процессоров Intel® Xeon® E5 v3 и ускорителей Intel® Xeon Phi™ [2]. К недостаткам системы можно отнести низкую скорость работы, отсутствие возможности работы с базой документов (только сравнение документа с документами в заданном каталоге), возможность работы только с определенной версией документов Microsoft Word и другие. Алгоритм предполагает выделение в предварительно обработанном (канонизированном) тексте без предлогов и знаков препинания цепочек слов заданной длины (шинглов), расчет для каждого шингла контрольных сумм и затем подсчет числа совпадающих контрольных сумм в сравниваемых текстах. В качестве этапа Map могут выступать составление шинглов и вычисление их контрольных сумм, затем может выполняться сравнение и группировка результатов на этапе Reduce. Поскольку простое внедрение многопоточности в этап расчета контрольных сумм дало лишь незначительное ускорение, наряду с параллелизмом данных также был использован параллелизм задач - параллельное вычисление контрольных сумм для обоих сравниваемых файлов с помощью прагмы #pragma parallel section : #pragma omp parallel sectionsПоказано, что для одной серверной платформы с 6 ускорителями (такая платформа имеется в составе кластера, а в целом на рынке имеются платформы с возможностью размещения 8 ускорителей) можно получить ускорение сравнения файлов со списком имеющихся до 12 раз по сравнению с двумя CPU Xeon E5 v3, до 48 раз по сравнению с однопоточной реализацией на этих же CPU и до 70 раз по сравнению с использованием обычного ПК.

Заказать написание новой работы

Дисциплины научных работ

Посмотреть все работы

Сокращение времени оценки схожести текстовых документов на неоднородной многопроцессорной вычислительной системе - Статья

You searched for: {{term}}

Error! Please check the JS Console in your dev tools.

Дисциплины научных работ