plugin.py

import pathlib
from typing import Any, List
import json

import numpy as np
from pymemri.data.itembase import Edge, Item
from pymemri.plugin.pluginbase import PluginBase
from pymemri.pod.client import PodClient
from pymemri.data.schema import Message
from transformers import TextClassificationPipeline
from transformers import pipeline as AutoPipeline
import torch

from .schema import CategoricalPrediction, CategoricalLabel
import wandb


def get_predictions(item):
    return [x for x in item.label if isinstance(x, CategoricalPrediction)]

class SentimentAnalysis(PluginBase):
    _default_config = {
        "content_field": "content",
        "item_type": "Message",
        "model_name": "cardiffnlp/twitter-xlm-roberta-base-sentiment",
        "model_head": "eelcovdw/memri_sentiment/model_head:latest",
    }

    def __init__(self, **kwargs):
        super().__init__(**kwargs)
        if self.pluginRun and self.pluginRun.settings:
            config = json.loads(self.pluginRun.settings)
        else:
            config = dict()
        self.set_config(config)

    def set_config(self, config):
        for item, default_value in self._default_config.items():
            value = config.get(item, default_value)
            setattr(self, item, value)

    def load_data(self, filter_predicted=True):
        """Load all data from pod of type `self.item_type`.

        Args:
            filter_edge (bool, optional): Remove items from result that already have a prediction.

        Returns:
            List[Item]: List of messages
        """

        data = self.client.search({"type": self.item_type})

        if filter_predicted:
            data = [item for item in data if len(get_predictions(item)) == 0]

        return data

    def load_model_head(self, pipeline: AutoPipeline):
        if self.model_head is None:
            print("Using default model_head")
            return pipeline
        wandb.login(anonymous="must")
        artifact = wandb.Api().artifact(self.model_head)
        mh_path = artifact.download()
        mh_path = next(pathlib.Path(mh_path).glob("*.model"))

        try:
            model_head = torch.load(mh_path, map_location=torch.device("cpu"))
            pipeline.model.classifier = model_head