work-flow-Initiative

Исторический альманах, портал коллекционеров информации, электронный музей

Язык [ РУССКИЙ ]

Соседние разделы


Детектор запрещенных материалов

Инструмент определения принадлежности материала к экстремистским.

Программа детектирует в исследуемом тексте точные фразы - цитаты, сформированные из 5ти последовательных слов и сравнивая их хеш значения с базой может определить принадлежность исследуемой фразы к запрещенным экстремистским материалам.

Таким образом можно обнаружить используемые в исследуемом тексте точные цитаты встречающиеся в запрещенных материалах перечисленных на странице Федеральный список экстремистских материалов.

Например следующий текст содержит фразу из "запрещенной" книги:
  • Как жанр, Советпанк это несомненно ретрофутуризм в антураже советской эпохи, тесно взаимодействующий с культурным и техническим наследием СССР начиная чуть ли не с 30-х годов прошлого века. Данное направление в основом описывает гипотетическое, альтернативное развитие СССР, в котором не произошло развала, а страна вышла на новый более сильный уровень развития: сверхдержава - мощнейшее государство с огромным политическим, экономическим и военным потенциалами, обладающее превосходством над большинством других государств, взявшее только самое лучшее от прежнего известного нам СССР, так сказать СССР версия 2.0 улучшенный и дополненный. Или в иной другой, даже негативной форме.

Для проверки вставите этот текст в поле ввода и нажмите отправить, одна цитата будет выделена красным цветом так как содержится в одном из запрещенных материалов.

База не содержит текстов запрещенных материалов или их копий, в базе содержится только последовательность необратимых значений хеш которые были сформированы посредством закрытых алгоритмов из словосочетаний употребляемых в запрещенных материалах. 
В формировании цитаты участвуют слова состоящие более чем из 3х символов (буквы, цифры и unicode символы). Прочие символы не учитываются. Проверяются первые 10 000 символов.

В базе описано 101482 уникальных цитаты.



24 ноября 2016: первый сырой релиз
29 ноября 2016: значительно увеличена скорость проверки, ограничение на размер текста изменено с 3000 до 10000 символов, налажена обработка переносов и Unicode символов



Адрес страницы: link