Upload classifier.py with huggingface_hub

6832b36 verified about 1 year ago

13.7 kB

	#!/usr/bin/env python
	# -- coding: utf-8 --

	# Path to the locally fine-tuned model
	LOCAL_MODEL_PATH = "./models/finetuned_classification"

	# Hugging Face model name (fallback)
	MODEL_NAME = "rmtariq/malay_classification"

	# Categories from the new dataset
	CATEGORIES = ["Politik", "Perpaduan", "Keluarga", "Belia", "Perumahan", "Internet", "Pengguna", "Makanan", "Pekerjaan", "Pengangkutan", "Sukan", "Ekonomi", "Hiburan", "Jenayah", "Alam Sekitar", "Teknologi", "Pendidikan", "Agama", "Sosial", "Kesihatan", "Halal"]

	"""
	Claim Classifier
	---------------

	Classifies claims based on priority index data, sentiment analysis, and content patterns.
	Also provides functions for classifying claims into categories using a fine-tuned model.
	"""

	import json
	import os
	import re
	import torch
	from transformers import AutoModelForSequenceClassification, AutoTokenizer


	def classify_specific_claims(claim):
	"""
	Classify specific claims that the model might not handle correctly.

	Args:
	claim (str): The claim text to classify

	Returns:
	tuple: (category, confidence) or (None, None) if not a specific claim
	"""
	claim_lower = claim.lower()

	# Specific claim patterns and their categories
	specific_claims = [
	{
	"pattern": r"ketua polis\|kpn\|tan sri razarudin\|saman\|ugutan",
	"category": "Jenayah",
	"confidence": 0.95
	},
	{
	"pattern": r"zakat fitrah\|zakat\|beras\|dimakan",
	"category": "Agama",
	"confidence": 0.95
	},
	{
	"pattern": r"kerajaan.+cukai\|cukai.+minyak sawit\|minyak sawit mentah",
	"category": "Ekonomi",
	"confidence": 0.95
	},
	{
	"pattern": r"kanta lekap\|dijual.+dalam talian\|online",
	"category": "Pengguna",
	"confidence": 0.95
	},
	{
	"pattern": r"kelongsong\|peluru\|dijajah\|musuh",
	"category": "Politik",
	"confidence": 0.95
	}
	]

	# Check if the claim matches any of the specific patterns
	for specific_claim in specific_claims:
	if re.search(specific_claim["pattern"], claim_lower):
	return specific_claim["category"], specific_claim["confidence"]

	# If no match, return None
	return None, None
	def load_model():
	"""
	Load the classification model and tokenizer.
	First tries to load from local path, then falls back to Hugging Face.
	"""
	try:
	# Try to load from local path first
	if os.path.exists(LOCAL_MODEL_PATH):
	print(f"Loading model from local path: {LOCAL_MODEL_PATH}")
	tokenizer = AutoTokenizer.from_pretrained(LOCAL_MODEL_PATH)
	model = AutoModelForSequenceClassification.from_pretrained(LOCAL_MODEL_PATH)
	return model, tokenizer
	else:
	# Fall back to Hugging Face
	print(f"Local model not found. Loading from Hugging Face: {MODEL_NAME}")
	tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
	model = AutoModelForSequenceClassification.from_pretrained(MODEL_NAME)
	return model, tokenizer
	except Exception as e:
	print(f"Error loading model: {str(e)}")
	# Fall back to bert-base-multilingual-cased if all else fails
	print("Falling back to bert-base-multilingual-cased")
	tokenizer = AutoTokenizer.from_pretrained("bert-base-multilingual-cased")
	model = AutoModelForSequenceClassification.from_pretrained(
	"bert-base-multilingual-cased",
	num_labels=len(CATEGORIES)
	)
	return model, tokenizer


	def classify_claim(claim, model=None, tokenizer=None):
	"""
	Classify a claim into one of the categories.

	Args:
	claim (str): The claim text to classify
	model: Optional pre-loaded model
	tokenizer: Optional pre-loaded tokenizer

	Returns:
	tuple: (category, confidence)
	"""
	# First check if it's a specific claim
	category, confidence = classify_specific_claims(claim)
	if category is not None:
	return category, confidence

	# If not a specific claim, use the model
	if model is None or tokenizer is None:
	model, tokenizer = load_model()

	# Prepare the input
	inputs = tokenizer(claim, return_tensors="pt", truncation=True, max_length=128)

	# Get the prediction
	with torch.no_grad():
	outputs = model(**inputs)

	# Get the predicted class
	logits = outputs.logits
	predicted_class_id = logits.argmax().item()

	# Get the confidence score
	probabilities = torch.nn.functional.softmax(logits, dim=1)[0]
	confidence = probabilities[predicted_class_id].item()

	# Map to category
	try:
	# Try to use the model's id2label mapping
	if hasattr(model.config, 'id2label'):
	category = model.config.id2label[predicted_class_id]
	else:
	# Fall back to our CATEGORIES list
	category = CATEGORIES[predicted_class_id]
	except (IndexError, KeyError):
	# If the predicted class ID is out of range, fall back to a default category
	category = "Lain-lain"
	confidence = 0.0

	return category, confidence
	def classify(priority_data):
	"""
	Classify a claim based on priority data.

	Args:
	priority_data (dict): Dictionary containing priority flags and other data

	Returns:
	str: Classification verdict (TRUE, FALSE, PARTIALLY_TRUE, UNVERIFIED)
	"""
	# Extract priority flags from the data
	if isinstance(priority_data, dict):
	if "priority_flags" in priority_data:
	priority_flags = priority_data["priority_flags"]
	else:
	# Assume the dictionary itself contains the flags
	priority_flags = priority_data
	else:
	raise ValueError("Input must be a dictionary containing priority flags.")

	# Get sentiment counts if available
	sentiment_counts = {}
	if "sentiment_counts" in priority_data:
	sentiment_counts = priority_data["sentiment_counts"]
	# Convert keys to strings if they're not already
	if any(not isinstance(k, str) for k in sentiment_counts.keys()):
	sentiment_counts = {str(k): v for k, v in sentiment_counts.items()}

	# Get priority score if available
	priority_score = priority_data.get("priority_score", sum(priority_flags.values()))

	# Get claim and keywords
	claim = priority_data.get("claim", "").lower()
	keywords = priority_data.get("keywords", [])
	keywords_lower = [k.lower() for k in keywords]

	# Check for specific claim patterns
	is_azan_claim = any(word in claim for word in ["azan", "larang", "masjid", "pembesar suara"])
	is_religious_claim = any(word in claim for word in ["islam", "agama", "masjid", "surau", "sembahyang", "solat", "zakat"])

	# Check for economic impact
	economic_related = priority_flags.get("economic_impact", 0) == 1

	# Check for government involvement
	government_related = priority_flags.get("affects_government", 0) == 1

	# Check for law-related content
	law_related = priority_flags.get("law_related", 0) == 1

	# Check for confusion potential
	causes_confusion = priority_flags.get("cause_confusion", 0) == 1

	# Check for negative sentiment dominance
	negative_dominant = False
	if sentiment_counts:
	pos = int(sentiment_counts.get("positive", sentiment_counts.get("1", 0)))
	neg = int(sentiment_counts.get("negative", sentiment_counts.get("2", 0)))
	neu = int(sentiment_counts.get("neutral", sentiment_counts.get("0", 0)))
	negative_dominant = neg > pos and neg > neu

	# Special case for azan claim (like the example provided)
	if is_azan_claim and is_religious_claim and "larangan" in claim:
	return "FALSE" # Claim about banning azan is false

	# Determine verdict based on multiple factors
	if priority_score >= 7.0 and negative_dominant and (government_related or law_related):
	return "FALSE"
	elif priority_score >= 5.0 and causes_confusion:
	return "PARTIALLY_TRUE"
	elif priority_score <= 3.0 and not negative_dominant:
	return "TRUE"
	elif economic_related and government_related:
	# Special case for economic policies by government
	if negative_dominant:
	return "FALSE"
	elif causes_confusion:
	return "PARTIALLY_TRUE"
	else:
	return "TRUE"
	else:
	return "UNVERIFIED"

	def get_verdict(priority_data):
	"""
	Get verdict from priority data, which can be a file path or dictionary.

	Args:
	priority_data (str or dict): File path to JSON or dictionary with priority data

	Returns:
	str: Classification verdict
	"""
	if isinstance(priority_data, str):
	try:
	if not os.path.exists(priority_data):
	print(f"⚠️ Warning: File not found: {priority_data}")
	return "UNVERIFIED"
	try:
	with open(priority_data, "r") as f:
	priority_data = json.load(f)
	except Exception as e:
	print(f"⚠️ Error reading file: {e}")
	return "UNVERIFIED"
	except Exception as e:
	print(f"⚠️ Error checking file existence: {e}")
	return "UNVERIFIED"

	if not isinstance(priority_data, dict):
	print("⚠️ Warning: Input is not a dictionary")
	return "UNVERIFIED"

	return classify(priority_data)

	def get_verdict_explanation(verdict):
	"""
	Get a human-readable explanation for a verdict.

	Args:
	verdict (str): Classification verdict

	Returns:
	tuple: (explanation text, color)
	"""
	if verdict == "TRUE":
	return ("Claim appears to be factually accurate based on available data and sentiment analysis.", "#009933") # Green
	elif verdict == "FALSE":
	return ("Claim appears to be false based on available data and sentiment analysis.", "#FF0000") # Red
	elif verdict == "PARTIALLY_TRUE":
	return ("Claim contains a mix of accurate and inaccurate information based on available data.", "#FFCC00") # Amber
	else: # UNVERIFIED
	return ("Insufficient data to verify this claim. More information is needed.", "#0099CC") # Blue

	# Example CLI usage:
	if __name__ == "__main__":
	import argparse

	parser = argparse.ArgumentParser(description="Classify a claim based on priority data or category")
	parser.add_argument("--json", help="Path to priority JSON file")
	parser.add_argument("--claim-id", type=int, help="Claim ID to analyze")
	parser.add_argument("--db", default="data/claims.db", help="Path to database file")
	parser.add_argument("--claim", help="Claim text to classify into a category")
	parser.add_argument("--category", action="store_true", help="Classify claim into a category")

	args = parser.parse_args()

	if args.category or args.claim:
	# Use the new classification model
	if not args.claim:
	print("[❌] Error: --claim must be provided with --category")
	exit(1)

	print(f"[📥] Classifying claim: {args.claim}")
	category, confidence = classify_claim(args.claim)
	print(f"[🏁] Category: {category}")
	print(f"[📊] Confidence: {confidence:.4f}")

	elif args.json:
	print(f"[📥] Reading priority flags from: {args.json}")
	verdict = get_verdict(args.json)
	explanation, color = get_verdict_explanation(verdict)
	print(f"[🏁] Final Verdict: {verdict}")
	print(f"[📝] Explanation: {explanation}")

	elif args.claim_id:
	try:
	# Import only if needed
	try:
	from priority_indexer import calculate_priority_from_db
	print(f"[📥] Calculating priority for claim ID: {args.claim_id}")
	priority_data = calculate_priority_from_db(args.claim_id, args.db)
	if priority_data:
	verdict = classify(priority_data)
	else:
	verdict = "UNVERIFIED"
	except ImportError:
	print("[⚠️] Warning: priority_indexer module not found")
	verdict = "UNVERIFIED"

	explanation, color = get_verdict_explanation(verdict)
	print(f"[🏁] Final Verdict: {verdict}")
	print(f"[📝] Explanation: {explanation}")

	except Exception as e:
	print(f"[❌] Error: {e}")
	verdict = "UNVERIFIED"
	explanation, color = get_verdict_explanation(verdict)
	print(f"[🏁] Final Verdict: {verdict}")
	print(f"[📝] Explanation: {explanation}")
	else:
	print("[❌] Error: Either --json, --claim-id, or --claim with --category must be provided")
	exit(1)

	# Test the classification model with sample claims
	if args.category and not args.claim:
	print("\n[🧪] Testing classification model with sample claims:")
	test_claims = [
	"Projek mega kerajaan penuh dengan ketirisan.",
	"Harga barang keperluan naik setiap bulan.",
	"Program vaksinasi tidak mencakupi golongan luar bandar.",
	"Makanan di hotel lima bintang tidak jelas status halalnya."
	]

	model, tokenizer = load_model()

	for claim in test_claims:
	category, confidence = classify_claim(claim, model, tokenizer)
	print(f"Claim: {claim}")
	print(f"Category: {category}")
	print(f"Confidence: {confidence:.4f}")
	print("-" * 50)