!pip install scikit-activeml > /dev/null 2>&1
!pip install numpy==1.24.4 scipy==1.10.1


import numpy as np
import matplotlib as mlp
import matplotlib.pyplot as plt
import pandas as pd
import re
import string
import skactiveml
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import accuracy_score
from skactiveml.classifier import SklearnClassifier, ParzenWindowClassifier
from skactiveml.pool import UncertaintySampling, ProbabilisticAL, RandomSampling
from skactiveml.pool.multiannotator import SingleAnnotatorWrapper
from skactiveml.stream import StreamRandomSampling, StreamProbabilisticAL
from skactiveml.utils import unlabeled_indices, labeled_indices, MISSING_LABEL, majority_vote, call_func
from skactiveml.visualization import plot_utilities, plot_decision_boundary
from collections import deque
from scipy.ndimage import gaussian_filter1d
from sklearn.manifold import TSNE


df = pd.read_csv("IMDB Dataset.csv")

# Load the IMDB dataset with proper handling for encoding and skipping bad lines
df = pd.read_csv("IMDB Dataset.csv", engine="python", on_bad_lines='skip')


#from google.colab import drive
#drive.mount('/content/drive', force_remount=True)

# Load the IMDB dataset
#df = pd.read_csv('/content/drive/My Drive/IMDB Dataset.csv')


df.head()


# Reduce the dataset size for initial testing
df = df.sample(10000, random_state=42)


# Preprocess the text data
def preprocess_text(text):
    text = text.lower()  # Lowercase text
    text = re.sub(f'[{re.escape(string.punctuation)}]', '', text)  # Remove punctuation
    text = re.sub(r'\s+', ' ', text).strip()  # Remove extra whitespace
    return text

df['review'] = df['review'].apply(preprocess_text)

df.describe()


# Convert labels to binary
df['sentiment'] = df['sentiment'].map({'positive': 1, 'negative': 0})


# Split the data into training and test sets
X_train, X_test, y_train, y_test = train_test_split(df['review'], df['sentiment'], test_size=0.2, random_state=42)


vectorizer = TfidfVectorizer(max_features=5000)
X_train_vect = vectorizer.fit_transform(X_train)
X_test_vect = vectorizer.transform(X_test)


clf = SklearnClassifier(LogisticRegression(max_iter=1000))


# Initialize Training Labels
y_train_initial = np.full(y_train.shape, fill_value=MISSING_LABEL)
print(np.isnan(y_train).sum())
print(np.isnan(y_train_initial).sum())
initial_idx = np.random.choice(np.arange(len(y_train)), size=10, replace=False)
y_train_initial[initial_idx] = y_train.iloc[initial_idx]

print(np.isnan(y_train_initial).sum())

0
8000
7990


qs = UncertaintySampling(method='entropy', random_state=42)


n_iterations = 10

for i in range(n_iterations):
    clf.fit(X_train_vect.toarray(), y_train_initial)
    query_idx = qs.query(X=X_train_vect.toarray(), y=y_train_initial, clf=clf, batch_size=10)
    y_train_initial[query_idx] = y_train.iloc[query_idx]
    # print(np.isnan(y_train_initial).sum())
    # Evaluate the classifier on the test set
    y_pred = clf.predict(X_test_vect.toarray())
    acc = accuracy_score(y_test, y_pred)
    print(f'Simple Evaluation Iteration {i + 1}/{n_iterations}, Accuracy: {acc:.4f}')

Simple Evaluation Iteration 1/10, Accuracy: 0.5485
Simple Evaluation Iteration 2/10, Accuracy: 0.4995
Simple Evaluation Iteration 3/10, Accuracy: 0.5010
Simple Evaluation Iteration 4/10, Accuracy: 0.5035
Simple Evaluation Iteration 5/10, Accuracy: 0.5290
Simple Evaluation Iteration 6/10, Accuracy: 0.6035
Simple Evaluation Iteration 7/10, Accuracy: 0.5825
Simple Evaluation Iteration 8/10, Accuracy: 0.6540
Simple Evaluation Iteration 9/10, Accuracy: 0.6615
Simple Evaluation Iteration 10/10, Accuracy: 0.6405


# Final evaluation
clf.fit(X_train_vect.toarray(), y_train)
y_pred = clf.predict(X_test_vect.toarray())
final_acc = accuracy_score(y_test, y_pred)
print(f'Simple Evaluation Final accuracy: {final_acc:.4f}')

Simple Evaluation Final accuracy: 0.8700


# Number of annotators
n_annotators = 5

# Generate noisy labels for each annotator
y_annot = np.zeros(shape=(X_train_vect.shape[0], n_annotators), dtype=int)
rng = np.random.default_rng(seed=0)

# Noise levels
noise_levels = np.linspace(0.0, 0.3, num=n_annotators)

# Generate noise for all annotators simultaneously
y_noise_matrix = rng.binomial(1, noise_levels[:, np.newaxis], size=(n_annotators, X_train_vect.shape[0])).T

# Apply noise to the true labels
y_annot = y_noise_matrix ^ y_train.values[:, np.newaxis]

# Initialize training labels with missing values
y = np.full(shape=(X_train_vect.shape[0], n_annotators), fill_value=MISSING_LABEL)


# Create the classifier
clf = ParzenWindowClassifier(classes=np.unique(y_train.values), metric="rbf", random_state=0)

# Set up the query strategy
sa_qs = ProbabilisticAL(random_state=0, prior=0.001)
ma_qs = SingleAnnotatorWrapper(sa_qs, random_state=0)


# Function to be able to index via an array of indices
idx = lambda A: (A[:, 0], A[:, 1])

# Randomly select an initial set of labeled samples
initial_idx = np.random.choice(np.arange(len(y_train)), size=50, replace=False)
for i in initial_idx:
    y[i, :] = y_train.iloc[i]

print(np.isnan(y).sum())

39750


# Initial fit of the classifier
clf.fit(X_train_vect.toarray(), majority_vote(y))

# Perform one active learning cycle
print("Cycle 1/1")

# Query indices for labeling
query_params_dict = {"clf": clf}
query_idx = ma_qs.query(X_train_vect.toarray(), y, batch_size=100, n_annotators_per_sample=3, clf=clf)

# Update labels
y[idx(query_idx)] = y_annot[idx(query_idx)]
#print(np.isnan(y).sum())

# Retrain classifier
clf.fit(X_train_vect.toarray(), majority_vote(y, random_state=0))

# Evaluate the classifier on the test set
y_pred = clf.predict(X_test_vect.toarray())
acc = accuracy_score(y_test, y_pred)
print(f'Multi-annotator Iteration 1/1, Accuracy: {acc:.4f}')

Cycle 1/1
Multi-annotator Iteration 1/1, Accuracy: 0.5005


stream_length = 1000
X_stream = X_train_vect.toarray()[:stream_length]
y_stream = y_train.values[:stream_length]


query_strategies = {
    'StreamRandomSampling': StreamRandomSampling(random_state=0),
    'StreamProbabilisticAL': StreamProbabilisticAL(random_state=0)
}

training_size = 200
fit_clf = False
accuracies = {}


for query_strategy_name, query_strategy in query_strategies.items():
    clf = ParzenWindowClassifier(classes=np.unique(y_train.values), random_state=0)

    # Initialize the training data
    X_train_stream = deque(maxlen=training_size)
    X_train_stream.extend(X_stream[:10])

    y_train_stream = deque(maxlen=training_size)
    y_train_stream.extend(y_stream[:10])


    # Fit the classifier with this initial data.
    clf.fit(X_train_stream, y_train_stream)

correct_classifications = []
count = 0


    correct_classifications = []
    count = 0
    for t in range(10, len(X_stream)): #`t` is the index of the current sample in the stream
        # Reshape the current sample for compatibility with the classifier's predict method, which expects a 2D array
        X_cand = X_stream[t].reshape(1, -1)
        y_cand = y_stream[t]

        # Refit the classifier and predict the current sample's label
        clf.fit(X_train_stream, y_train_stream)
        correct_classifications.append(clf.predict(X_cand)[0] == y_cand)

        # Update the query strategy with the selected samples
        sampled_indices, utilities = call_func(query_strategy.query, candidates=X_cand, clf=clf, return_utilities=True, fit_clf=fit_clf)

        # Create a dictionary budget_manager_param_dict
        budget_manager_param_dict = {"utilities": utilities}

        # Dynamically call the update method on `query_strategy`
        call_func(query_strategy.update, candidates=X_cand, queried_indices=sampled_indices, budget_manager_param_dict=budget_manager_param_dict)

        # Track the number of queried samples
        count += len(sampled_indices)

        # Update the training data with new samples and labels
        X_train_stream.append(X_stream[t]), y_train_stream.append(y_cand if len(sampled_indices) > 0 else clf.missing_label)


# Calculate and print the average accuracy for each query strategy
avg_accuracy = np.mean(correct_classifications)
accuracies[query_strategy_name] = correct_classifications


# Stream-based learning setup
stream_length = 1000
X_stream = X_train_vect.toarray()[:stream_length]
y_stream = y_train.values[:stream_length]

# Set up query strategies
query_strategies = {
    'StreamRandomSampling': StreamRandomSampling(random_state=0),
    'StreamProbabilisticAL': StreamProbabilisticAL(random_state=0)
}

training_size = 200
fit_clf = False
accuracies = {}

for query_strategy_name, query_strategy in query_strategies.items():
    clf = ParzenWindowClassifier(classes=np.unique(y_train.values), random_state=0)

    # Initialize the training data
    X_train_stream = deque(maxlen=training_size)
    y_train_stream = deque(maxlen=training_size)

    # Initialize with the first 10 samples
    X_train_stream.extend(X_stream[:10])
    y_train_stream.extend(y_stream[:10])

    clf.fit(X_train_stream, y_train_stream)
    correct_classifications = []
    count = 0
    for t in range(10, len(X_stream)):
        # Reshape the current sample for compatibility
        X_cand = X_stream[t].reshape(1, -1)
        y_cand = y_stream[t]

        # Refit the classifier and predict the current sample's label
        clf.fit(X_train_stream, y_train_stream)
        correct_classifications.append(clf.predict(X_cand)[0] == y_cand)

        # Query the classifier
        sampled_indices, utilities = call_func(query_strategy.query, candidates=X_cand, clf=clf, return_utilities=True, fit_clf=fit_clf)
        budget_manager_param_dict = {"utilities": utilities}
        call_func(query_strategy.update, candidates=X_cand, queried_indices=sampled_indices, budget_manager_param_dict=budget_manager_param_dict)

        # Update the training data with new samples and labels
        X_train_stream.append(X_stream[t])
        y_train_stream.append(y_cand if len(sampled_indices) > 0 else clf.missing_label)

        # Track the number of queried samples
        count += len(sampled_indices)

    # Calculate and print the average accuracy for each query strategy
    avg_accuracy = np.mean(correct_classifications)
    print(f"Query Strategy: {query_strategy_name}, Avg Accuracy: {avg_accuracy:.4f}, Acquisition count: {count}")
    accuracies[query_strategy_name] = correct_classifications

Query Strategy: StreamRandomSampling, Avg Accuracy: 0.4939, Acquisition count: 107
Query Strategy: StreamProbabilisticAL, Avg Accuracy: 0.4848, Acquisition count: 102


for query_strategy_name, correct_classifications in accuracies.items():
    plt.plot(gaussian_filter1d(np.array(correct_classifications, dtype=float), 50), label=query_strategy_name)
plt.legend();
plt.xlabel('Iteration')
plt.ylabel('Accuracy')
plt.title('Accuracy over time for different query strategies')
plt.show()

Practical 9: Movie review classification using Active learning¶

Let's get started¶

Loading the IMDB Dataset¶

Pre-processing the Text Data¶

Text Preprocessing¶

TF-IDF and Vectorization¶

Initialize the active learning¶

Set Up the Query Strategy¶

Pool-based Active Learning - Simple Evaluation Study¶

Multi-annotator Pool-based Active Learning¶

Stream-based Active Learning¶

Set Up Query Strategies¶

Initialize Classifier and Training Data¶

Create Stream-based Active Learning Loop¶

Calculate and Track Accuracy¶

	review	sentiment
0	One of the other reviewers has mentioned that ...	positive
1	A wonderful little production. <br /><br />The...	positive
2	I thought this was a wonderful way to spend ti...	positive
3	Basically there's a family where a little boy ...	negative
4	Petter Mattei's "Love in the Time of Money" is...	positive

	review	sentiment
count	10000	10000
unique	9978	2
top	you would probably get something like this im ...	positive
freq	2	5039