AIL-framework/bin/modules/OcrExtractor.py

#!/usr/bin/env python3
# -*-coding:UTF-8 -*
"""
The OcrExtractor Module
======================

"""

##################################
# Import External packages
##################################
import cv2
import os
import sys

sys.path.append(os.environ['AIL_BIN'])
##################################
# Import Project packages
##################################
from modules.abstract_module import AbstractModule
from lib.ConfigLoader import ConfigLoader
from lib import chats_viewer
from lib.objects import Messages
from lib.objects import Ocrs


# Default to eng
def get_model_languages(obj, add_en=True):
    if add_en:
        model_languages = {'en'}
    else:
        model_languages = set()

    ob = obj.get_first_correlation('message')
    if ob:
        message = Messages.Message(ob.split(':', 2)[-1])
        lang = message.get_language()
        if lang:
            model_languages.add(lang)
            return model_languages

    ob = obj.get_first_correlation('chat-subchannel')
    if ob:
        ob = chats_viewer.get_obj_chat_from_global_id(ob)
        lang = ob.get_main_language()
        if lang:
            model_languages.add(lang)
            return model_languages

    ob = obj.get_first_correlation('chat')
    if ob:
        ob = chats_viewer.get_obj_chat_from_global_id(ob)
        lang = ob.get_main_language()
        if lang:
            model_languages.add(lang)
            return model_languages

    return model_languages

    #  TODO thread


class OcrExtractor(AbstractModule):
    """
    OcrExtractor for AIL framework
    """

    def __init__(self):
        super(OcrExtractor, self).__init__()

        # Waiting time in seconds between to message processed
        self.pending_seconds = 1

        config_loader = ConfigLoader()
        self.r_cache = config_loader.get_redis_conn("Redis_Cache")

        self.ocr_languages = Ocrs.get_ocr_languages()

        # Send module state to logs
        self.logger.info(f'Module {self.module_name} initialized')

    def is_cached(self):
        return self.r_cache.exists(f'ocr:no:{self.obj.id}')

    def add_to_cache(self):
        self.r_cache.setex(f'ocr:no:{self.obj.id}', 86400, 0)

    def compute(self, message):
        image = self.get_obj()
        date = message

        ocr = Ocrs.Ocr(image.id)
        if self.is_cached():
            return None

        if self.obj.is_gif():
            self.logger.warning(f'Ignoring GIF: {self.obj.id}')
            return None

        if not ocr.exists():
            path = image.get_filepath()
            languages = get_model_languages(image)
            languages = Ocrs.sanityze_ocr_languages(languages, ocr_languages=self.ocr_languages)
            print(image.id, languages)
            try:
                texts = Ocrs.extract_text(path, languages)
            except (OSError, ValueError, cv2.error) as e:
                self.logger.warning(e)
                self.obj.add_tag('infoleak:confirmed="false-positive"')
                texts = None
            if texts:
                print('create')
                ocr = Ocrs.create(image.id, texts)
                if ocr:
                    self.add_message_to_queue(ocr)
                else:
                    print('no text')
                    self.add_to_cache()
            # Save in cache
            else:
                print('no text detected')
                self.add_to_cache()
        else:
            # print(image.id)
            # print('update correlation', date)
            ocr.update_correlation(date=date)


if __name__ == '__main__':

    module = OcrExtractor()
    module.run()
chg: [ocr] extract text from image + add ocr object 2024-04-08 17:16:07 +02:00			`#!/usr/bin/env python3`
			`# --coding:UTF-8 -`
			`"""`
			`The OcrExtractor Module`
			`======================`

			`"""`

			`##################################`
			`# Import External packages`
			`##################################`
fix: [ocr] catch cv2 errors 2024-05-02 10:36:20 +02:00			`import cv2`
chg: [ocr] extract text from image + add ocr object 2024-04-08 17:16:07 +02:00			`import os`
			`import sys`

			`sys.path.append(os.environ['AIL_BIN'])`
			`##################################`
			`# Import Project packages`
			`##################################`
			`from modules.abstract_module import AbstractModule`
chg: [ocr] add cache + correlation ocr-chats-messages + launch ocr extractor by default 2024-04-24 14:43:11 +02:00			`from lib.ConfigLoader import ConfigLoader`
chg: [ocr] get languages model + group extracted content by line + process ocr objects + get all images 2024-04-10 16:43:54 +02:00			`from lib import chats_viewer`
			`from lib.objects import Messages`
chg: [ocr] extract text from image + add ocr object 2024-04-08 17:16:07 +02:00			`from lib.objects import Ocrs`

fix: [ocr] filter ocr supported languages + fix type of object accepted by the tracker 2024-04-26 10:31:31 +02:00
chg: [ocr] get languages model + group extracted content by line + process ocr objects + get all images 2024-04-10 16:43:54 +02:00			`# Default to eng`
fix: [ocr] fix ocr supported languages 2024-04-26 10:49:24 +02:00			`def get_model_languages(obj, add_en=True):`
chg: [ocr] get languages model + group extracted content by line + process ocr objects + get all images 2024-04-10 16:43:54 +02:00			`if add_en:`
			`model_languages = {'en'}`
			`else:`
			`model_languages = set()`

			`ob = obj.get_first_correlation('message')`
			`if ob:`
			`message = Messages.Message(ob.split(':', 2)[-1])`
			`lang = message.get_language()`
			`if lang:`
			`model_languages.add(lang)`
			`return model_languages`

			`ob = obj.get_first_correlation('chat-subchannel')`
			`if ob:`
			`ob = chats_viewer.get_obj_chat_from_global_id(ob)`
			`lang = ob.get_main_language()`
			`if lang:`
			`model_languages.add(lang)`
			`return model_languages`

			`ob = obj.get_first_correlation('chat')`
			`if ob:`
			`ob = chats_viewer.get_obj_chat_from_global_id(ob)`
			`lang = ob.get_main_language()`
			`if lang:`
			`model_languages.add(lang)`
			`return model_languages`

			`return model_languages`

			`# TODO thread`

chg: [ocr] extract text from image + add ocr object 2024-04-08 17:16:07 +02:00
			`class OcrExtractor(AbstractModule):`
			`"""`
			`OcrExtractor for AIL framework`
			`"""`

			`def __init__(self):`
			`super(OcrExtractor, self).__init__()`

			`# Waiting time in seconds between to message processed`
			`self.pending_seconds = 1`

chg: [ocr] add cache + correlation ocr-chats-messages + launch ocr extractor by default 2024-04-24 14:43:11 +02:00			`config_loader = ConfigLoader()`
			`self.r_cache = config_loader.get_redis_conn("Redis_Cache")`

fix: [ocr] filter ocr supported languages + fix type of object accepted by the tracker 2024-04-26 10:31:31 +02:00			`self.ocr_languages = Ocrs.get_ocr_languages()`

chg: [ocr] extract text from image + add ocr object 2024-04-08 17:16:07 +02:00			`# Send module state to logs`
			`self.logger.info(f'Module {self.module_name} initialized')`

chg: [ocr] add cache + correlation ocr-chats-messages + launch ocr extractor by default 2024-04-24 14:43:11 +02:00			`def is_cached(self):`
			`return self.r_cache.exists(f'ocr:no:{self.obj.id}')`

			`def add_to_cache(self):`
			`self.r_cache.setex(f'ocr:no:{self.obj.id}', 86400, 0)`

chg: [ocr] extract text from image + add ocr object 2024-04-08 17:16:07 +02:00			`def compute(self, message):`
			`image = self.get_obj()`
chg: [ocr] ocr daterange object, get ocrs by daterange + fixs 2024-04-25 14:18:22 +02:00			`date = message`
chg: [ocr] extract text from image + add ocr object 2024-04-08 17:16:07 +02:00
			`ocr = Ocrs.Ocr(image.id)`
chg: [ocr] add cache + correlation ocr-chats-messages + launch ocr extractor by default 2024-04-24 14:43:11 +02:00			`if self.is_cached():`
			`return None`

chg: [reprocess tool] add OcrExtractor module + filter image gif 2024-04-24 15:16:18 +02:00			`if self.obj.is_gif():`
			`self.logger.warning(f'Ignoring GIF: {self.obj.id}')`
			`return None`

chg: [ocr] extract text from image + add ocr object 2024-04-08 17:16:07 +02:00			`if not ocr.exists():`
chg: [ocr] add cache + correlation ocr-chats-messages + launch ocr extractor by default 2024-04-24 14:43:11 +02:00			`path = image.get_filepath()`
fix: [ocr] fix ocr supported languages 2024-04-26 10:49:24 +02:00			`languages = get_model_languages(image)`
			`languages = Ocrs.sanityze_ocr_languages(languages, ocr_languages=self.ocr_languages)`
chg: [ocr] ocr daterange object, get ocrs by daterange + fixs 2024-04-25 14:18:22 +02:00			`print(image.id, languages)`
chg: [tags] search ocrs and images by tags + fix ocr, filter invalid image 2024-04-26 15:50:58 +02:00			`try:`
			`texts = Ocrs.extract_text(path, languages)`
fix: [ocr] catch cv2 errors 2024-05-02 10:36:20 +02:00			`except (OSError, ValueError, cv2.error) as e:`
chg: [tags] search ocrs and images by tags + fix ocr, filter invalid image 2024-04-26 15:50:58 +02:00			`self.logger.warning(e)`
			`self.obj.add_tag('infoleak:confirmed="false-positive"')`
			`texts = None`
chg: [ocr] extract text from image + add ocr object 2024-04-08 17:16:07 +02:00			`if texts:`
chg: [ocr] add cache + correlation ocr-chats-messages + launch ocr extractor by default 2024-04-24 14:43:11 +02:00			`print('create')`
chg: [ocr] extract text from image + add ocr object 2024-04-08 17:16:07 +02:00			`ocr = Ocrs.create(image.id, texts)`
chg: [ocr] ocr daterange object, get ocrs by daterange + fixs 2024-04-25 14:18:22 +02:00			`if ocr:`
			`self.add_message_to_queue(ocr)`
			`else:`
			`print('no text')`
			`self.add_to_cache()`
chg: [ocr] add cache + correlation ocr-chats-messages + launch ocr extractor by default 2024-04-24 14:43:11 +02:00			`# Save in cache`
			`else:`
			`print('no text detected')`
			`self.add_to_cache()`
			`else:`
chg: [ocr] ocr daterange object, get ocrs by daterange + fixs 2024-04-25 14:18:22 +02:00			`# print(image.id)`
			`# print('update correlation', date)`
			`ocr.update_correlation(date=date)`
chg: [ocr] extract text from image + add ocr object 2024-04-08 17:16:07 +02:00

			`if __name__ == '__main__':`

			`module = OcrExtractor()`
			`module.run()`