Реализация упрощенного алгоритма шинглов для сокращения времени сравнения документов на неоднородной вычислительной системе на базе многоядерных процессоров и Many Integrated Core (MIC) ускорителей. Поэтапная модификация исходной однопоточной программы.
При низкой оригинальности работы "Сокращение времени оценки схожести текстовых документов на неоднородной многопроцессорной вычислительной системе", Вы можете повысить уникальность этой работы до 80-100%
Сокращение времени оценки схожести текстовых документов на неоднородной многопроцессорной вычислительной системе В работе рассматривается параллельная реализация упрощенного алгоритма шинглов для сокращения времени сравнения текстовых документов на неоднородной вычислительной системе на базе многоядерных процессоров и Many Integrated Core (MIC) ускорителей. Приведены результаты тестирования разработанных прототипов, показывающие возможность сокращения времени сравнения документов до 12 раз при использовании нескольких ускорителей в системе.В данной работе предпринята попытка развития системы с точки зрения сокращения затрат времени на выполнение оценки текстов, а также - в направлении создания удаленного сервиса, использующего базу документов и возможности имеющегося вычислительного комплекса (кластера) ФЭВТ ВОЛГГТУ, оснащенного недавно новыми серверными платформами на базе процессоров Intel® Xeon® E5 v3 и ускорителей Intel® Xeon Phi™ [2]. К недостаткам системы можно отнести низкую скорость работы, отсутствие возможности работы с базой документов (только сравнение документа с документами в заданном каталоге), возможность работы только с определенной версией документов Microsoft Word и другие. Алгоритм предполагает выделение в предварительно обработанном (канонизированном) тексте без предлогов и знаков препинания цепочек слов заданной длины (шинглов), расчет для каждого шингла контрольных сумм и затем подсчет числа совпадающих контрольных сумм в сравниваемых текстах. В качестве этапа Map могут выступать составление шинглов и вычисление их контрольных сумм, затем может выполняться сравнение и группировка результатов на этапе Reduce. Поскольку простое внедрение многопоточности в этап расчета контрольных сумм дало лишь незначительное ускорение, наряду с параллелизмом данных также был использован параллелизм задач - параллельное вычисление контрольных сумм для обоих сравниваемых файлов с помощью прагмы #pragma parallel section : #pragma omp parallel sectionsПоказано, что для одной серверной платформы с 6 ускорителями (такая платформа имеется в составе кластера, а в целом на рынке имеются платформы с возможностью размещения 8 ускорителей) можно получить ускорение сравнения файлов со списком имеющихся до 12 раз по сравнению с двумя CPU Xeon E5 v3, до 48 раз по сравнению с однопоточной реализацией на этих же CPU и до 70 раз по сравнению с использованием обычного ПК.
Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность своей работы