Spaces:

HyperCluster
/

Fara-BrowserUse

Paused

App Files Files Community

Fara-BrowserUse / fara /types.py

VyoJ

Upload 78 files

7fcdb70 verified 7 days ago

raw

history blame contribute delete

3.22 kB

	import io
	import base64
	from dataclasses import dataclass, field
	from typing import Any, List, Tuple, Dict
	from PIL import Image


	@dataclass
	class LLMMessage:
	content: str \| List[Dict[str, Any]]
	source: str = "user"


	@dataclass
	class SystemMessage(LLMMessage):
	def __init__(self, content: str, source: str = "system"):
	self.content = content
	self.source = source


	@dataclass
	class UserMessage(LLMMessage):
	def __init__(
	self,
	content: str \| List[Dict[str, Any]],
	source: str = "user",
	is_original: bool = False,
	):
	self.content = content
	self.source = source
	self.is_original = is_original


	@dataclass
	class AssistantMessage(LLMMessage):
	def __init__(self, content: str, source: str = "assistant"):
	self.content = content
	self.source = source


	@dataclass
	class ImageObj:
	"""Image wrapper for handling screenshots and images"""

	image: Image.Image

	@classmethod
	def from_pil(cls, image: Image.Image) -> "ImageObj":
	return cls(image=image)

	def to_base64(self) -> str:
	"""Convert PIL image to base64 string"""
	buffered = io.BytesIO()
	self.image.save(buffered, format="PNG")
	return base64.b64encode(buffered.getvalue()).decode("utf-8")

	def resize(self, size: Tuple[int, int]) -> Image.Image:
	"""Resize the image"""
	return self.image.resize(size)


	@dataclass
	class ModelResponse:
	"""Response from model call"""

	content: str
	usage: Dict[str, Any] = field(default_factory=dict)


	@dataclass
	class FunctionCall:
	"""Represents a function call with arguments"""

	id: str
	name: str
	arguments: Dict[str, Any]


	def message_to_openai_format(message: LLMMessage) -> Dict[str, Any]:
	"""Convert our LLMMessage to OpenAI API format"""
	role = (
	"system"
	if isinstance(message, SystemMessage)
	else "assistant"
	if isinstance(message, AssistantMessage)
	else "user"
	)

	# Handle multimodal content (text + images)
	if isinstance(message.content, list):
	content_parts = []
	for item in message.content:
	if isinstance(item, ImageObj):
	# Convert image to base64 data URL
	base64_image = item.to_base64()
	content_parts.append(
	{
	"type": "image_url",
	"image_url": {"url": f"data:image/png;base64,{base64_image}"},
	}
	)
	elif isinstance(item, str):
	content_parts.append({"type": "text", "text": item})
	elif isinstance(item, dict):
	# Already in proper format
	content_parts.append(item)
	return {"role": role, "content": content_parts}
	else:
	# Simple text content
	return {"role": role, "content": message.content}


	@dataclass
	class WebSurferEvent:
	source: str
	message: str
	url: str
	action: str \| None = None
	arguments: Dict[str, Any] \| None = None