Spaces:

caokai1073
/

StriMap

Sleeping

StriMap / src /model.py

cao

fix

c7acc8d about 2 months ago

79.7 kB

	import csv
	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	import numpy as np
	from typing import Dict, List, Tuple
	from torch.nn.utils.parametrizations import weight_norm
	from torch.nn import TransformerEncoder, TransformerEncoderLayer

	import esm

	import pandas as pd
	from tqdm import tqdm
	from typing import Dict, List, Tuple

	import tempfile
	from pathlib import Path
	import mdtraj as md

	# import io
	# import gzip
	import os

	from egnn_pytorch import EGNN

	from transformers import AutoTokenizer, EsmForProteinFolding

	import logging
	logging.basicConfig(level=logging.INFO)
	logger = logging.getLogger(__name__)

	# from re import search as re_search
	import re


	def determine_tcr_seq_vj(cdr3,V,J,chain,guess01=False):

	def file2dict(filename,key_fields,store_fields,delimiter='\t'):
	"""Read file to a dictionary.
	key_fields: fields to be used as keys
	store_fields: fields to be saved as a list
	delimiter: delimiter used in the given file."""
	dictionary={}
	with open(filename, newline='') as csvfile:
	reader = csv.DictReader(csvfile,delimiter=delimiter)
	for row in reader:
	keys = [row[k] for k in key_fields]
	store= [row[s] for s in store_fields]

	sub_dict = dictionary
	for key in keys[:-1]:
	if key not in sub_dict:
	sub_dict[key] = {}
	sub_dict = sub_dict[key]
	key = keys[-1]
	if key not in sub_dict:
	sub_dict[key] = []
	sub_dict[key].append(store)
	return dictionary

	def get_protseqs_ntseqs(chain='B'):
	"""returns sequence dictioaries for genes: protseqsV, protseqsJ, nucseqsV, nucseqsJ"""
	seq_dicts=[]
	for gene,type in zip(['v','j','v','j'],['aa','aa','nt','nt']):
	name = 'library/'+'tr'+chain.lower()+gene+'s_'+type+'.tsv'
	sdict = file2dict(name,key_fields=['Allele'],store_fields=[type+'_seq'])
	for g in sdict:
	sdict[g]=sdict[g][0][0]
	seq_dicts.append(sdict)
	return seq_dicts

	protVb,protJb,_,_ = get_protseqs_ntseqs(chain='B')
	protVa,protJa,_,_ = get_protseqs_ntseqs(chain='A')

	def splice_v_cdr3_j(pv: str, pj: str, cdr3: str) -> str:
	"""
	pv: V gene protein sequence
	pj: J gene protein sequence
	cdr3: C-starting, F/W-ending CDR3 sequence (protein)
	Returns: The spliced full sequence (V[:lastC] + CDR3 + J suffix)
	"""
	pv = (pv or "").strip().upper()
	pj = (pj or "").strip().upper()
	cdr3 = (cdr3 or "").strip().upper()

	# 1) V segment: Take the last 'C' (including the conserved C in V region)
	cpos = pv.rfind('C')
	if cpos == -1:
	raise ValueError("V sequence has no 'C' to anchor CDR3 start.")
	v_prefix = pv[:cpos] # up to and including C

	# 2) Align CDR3's "end overlap" in J
	# Start from the full length of cdr3, gradually shorten it, and find the longest suffix that can match in J
	j_suffix = pj # fallback (in extreme cases)
	for k in range(len(cdr3), 0, -1):
	tail = cdr3[-k:] # CDR3's suffix
	m = re.search(re.escape(tail), pj)
	if m:
	j_suffix = pj[m.end():] # Take the suffix from the matching segment
	break

	return v_prefix + cdr3 + j_suffix

	tcr_list = []
	for i in range(len(cdr3)):
	cdr3_ = cdr3[i]
	V_ = V[i]
	J_ = J[i]
	if chain=='A':
	protseqsV = protVa
	protseqsJ = protJa
	else:
	protseqsV = protVb
	protseqsJ = protJb
	if guess01:
	if '*' not in V_:
	V_+='*01'
	if '*' not in J_:
	J_+='*01'
	pv = protseqsV[V_]
	pj = protseqsJ[J_]
	# t = pv[:pv.rfind('C')]+ cdr3_ + pj[re_search(r'[FW]G.[GV]',pj).start()+1:]
	t = splice_v_cdr3_j(pv, pj, cdr3_)
	tcr_list.append(t)
	return tcr_list

	# def negative_sampling_phla(df, neg_ratio=5, label_col='label', neg_label=0, random_state=42):
	# """
	# Create negative samples by shuffling the TCR sequences while keeping the peptide-HLA pairs intact.
	# Ensures that the generated (TCR, peptide, HLA) triplets do not exist in the original dataset.
	# """
	# negative_samples = []

	# # 正样本 triplet 集合
	# pos_triplets = set(zip(
	# df['tcra'], df['tcrb'], df['peptide'], df['HLA_full']
	# ))

	# for i in range(neg_ratio):
	# shuffled_df = df.copy()

	# tcr_cols = ['tcra', 'cdr3a_start', 'cdr3a_end', 'tcrb', 'cdr3b_start', 'cdr3b_end']
	# shuffled_tcr = df[tcr_cols].sample(frac=1, random_state=random_state + i).reset_index(drop=True)

	# for col in tcr_cols:
	# shuffled_df[col] = shuffled_tcr[col]

	# # 剔除：1) TCR 未改变的行 2) triplet 与正样本重复
	# mask_keep = []
	# for idx, row in shuffled_df.iterrows():
	# triplet = (row['tcra'], row['tcrb'], row['peptide'], row['HLA_full'])
	# if triplet in pos_triplets:
	# mask_keep.append(False)
	# else:
	# mask_keep.append(True)

	# shuffled_df = shuffled_df[mask_keep]
	# shuffled_df[label_col] = neg_label

	# negative_samples.append(shuffled_df)

	# negative_samples = pd.concat(negative_samples, ignore_index=True).drop_duplicates()
	# return negative_samples

	import numpy as np
	import pandas as pd

	# def balanced_negative_sampling_phla(df, label_col='label', neg_label=0, random_state=42):
	# """
	# 为每个 (peptide, HLA_full) 平衡采样负样本：
	# - 找出正样本最多的 peptide
	# - 该 peptide 的负样本数量 = 1:1，从其他 peptide 的 TCR 中采样（保持 peptide–HLA 配对）
	# - 其他 peptide 采样负样本，使每个 peptide 拥有相同总样本数
	# - 保证 peptide 与 HLA_full 始终保持配对关系
	# """
	# np.random.seed(random_state)

	# pos_df = df[df[label_col] != neg_label].copy()
	# pos_counts = pos_df['peptide'].value_counts()
	# max_peptide = pos_counts.idxmax()
	# max_pos = pos_counts.max()
	# total_target = max_pos * 2 # 每个 peptide 的最终样本数（正+负）

	# neg_samples = []

	# # 针对 max_peptide：负样本 = 1:1
	# df_other_tcrs = pos_df[pos_df['peptide'] != max_peptide][['tcra', 'tcrb', 'cdr3a_start', 'cdr3a_end', 'cdr3b_start', 'cdr3b_end']].copy()
	# neg_max = pos_df[pos_df['peptide'] == max_peptide].copy()
	# sampled_tcrs = df_other_tcrs.sample(
	# n=max_pos,
	# replace=True if len(df_other_tcrs) < max_pos else False,
	# random_state=random_state
	# ).reset_index(drop=True)
	# neg_max.update(sampled_tcrs)
	# neg_max[label_col] = neg_label
	# neg_samples.append(neg_max)

	# # 针对其他 peptides
	# for pep, n_pos in pos_counts.items():
	# if pep == max_peptide:
	# continue
	# n_neg = max(0, total_target - n_pos)
	# df_other_tcrs = pos_df[pos_df['peptide'] != pep][['tcra', 'tcrb', 'cdr3a_start', 'cdr3a_end', 'cdr3b_start', 'cdr3b_end']].copy()
	# neg_pep = pos_df[pos_df['peptide'] == pep].copy()
	# sampled_tcrs = df_other_tcrs.sample(
	# n=min(len(df_other_tcrs), n_neg),
	# replace=True if len(df_other_tcrs) < n_neg else False,
	# random_state=random_state
	# ).reset_index(drop=True)
	# sampled_tcrs = sampled_tcrs.iloc[:len(neg_pep)].copy() if len(sampled_tcrs) > len(neg_pep) else sampled_tcrs
	# neg_pep = pd.concat(
	# [neg_pep]*int(np.ceil(n_neg / len(neg_pep))), ignore_index=True
	# ).iloc[:n_neg]
	# neg_pep.update(sampled_tcrs)
	# neg_pep[label_col] = neg_label
	# neg_samples.append(neg_pep)

	# neg_df = pd.concat(neg_samples, ignore_index=True)
	# final_df = pd.concat([pos_df, neg_df], ignore_index=True).reset_index(drop=True)

	# return final_df

	def negative_sampling_phla(df, neg_ratio=5, label_col='label', neg_label=0, random_state=42):
	"""
	Create negative samples by shuffling TCRs while keeping peptide–HLA pairs intact.
	Ensures negative samples count = neg_ratio × positive samples count.
	"""
	np.random.seed(random_state)
	pos_triplets = set(zip(df['tcra'], df['tcrb'], df['peptide'], df['HLA_full']))
	tcr_cols = ['tcra', 'cdr3a_start', 'cdr3a_end', 'tcrb', 'cdr3b_start', 'cdr3b_end']

	n_pos = len(df)
	target_n_neg = n_pos * neg_ratio
	all_neg = []

	i = 0
	while len(all_neg) < target_n_neg:
	shuffled_df = df.copy()
	shuffled_tcr = df[tcr_cols].sample(frac=1, random_state=random_state + i).reset_index(drop=True)
	for col in tcr_cols:
	shuffled_df[col] = shuffled_tcr[col]

	mask_keep = []
	for idx, row in shuffled_df.iterrows():
	triplet = (row['tcra'], row['tcrb'], row['peptide'], row['HLA_full'])
	mask_keep.append(triplet not in pos_triplets)
	shuffled_df = shuffled_df[mask_keep]
	shuffled_df[label_col] = neg_label

	all_neg.append(shuffled_df)
	i += 1

	if len(pd.concat(all_neg)) > target_n_neg * 1.5:
	break

	negative_samples = pd.concat(all_neg, ignore_index=True).drop_duplicates()
	negative_samples = negative_samples.sample(
	n=min(len(negative_samples), target_n_neg), random_state=random_state
	).reset_index(drop=True)

	return negative_samples

	# def negative_sampling_tcr(df, neg_ratio=5, label_col='label', neg_label=0, random_state=42):
	# """
	# Create negative samples by keeping TCR fixed but assigning random (peptide, HLA_full)
	# pairs that do not exist in the original dataset.
	# Ensures that the generated (TCR, peptide, HLA) triplets do not exist in the original data.
	# """
	# np.random.seed(random_state)
	# negative_samples = []

	# pos_triplets = set(zip(df['tcra'], df['tcrb'], df['peptide'], df['HLA_full']))

	# all_pairs = list(set(zip(df['peptide'], df['HLA_full'])))

	# for i in range(neg_ratio):
	# neg_df = df.copy()

	# # 随机打乱 peptide–HLA 对，但保证不会选原来的那一个
	# new_pairs = []
	# for _, row in df.iterrows():
	# while True:
	# pep, hla = all_pairs[np.random.randint(len(all_pairs))]
	# triplet = (row['tcra'], row['tcrb'], pep, hla)
	# if triplet not in pos_triplets:
	# new_pairs.append((pep, hla))
	# break

	# neg_df[['peptide', 'HLA_full']] = pd.DataFrame(new_pairs, index=neg_df.index)
	# neg_df[label_col] = neg_label
	# negative_samples.append(neg_df)

	# negative_samples = pd.concat(negative_samples, ignore_index=True).drop_duplicates()
	# return negative_samples

	class EarlyStopping:
	def __init__(self, patience=10, verbose=True, delta=0.0, save_path='checkpoint.pt'):
	"""
	Early stopping based on both val_loss and val_auc.
	The model is saved whenever EITHER:
	- val_loss decreases by more than delta, OR
	- val_auc increases by more than delta.
	"""
	self.patience = patience
	self.verbose = verbose
	self.counter = 0
	self.early_stop = False
	self.delta = delta
	self.save_path = save_path

	self.best_loss = np.inf
	self.best_auc = -np.inf

	def __call__(self, val_auc, model):
	improved = False

	# Check auc improvement
	if val_auc > self.best_auc + self.delta:
	self.best_auc = val_auc
	improved = True

	if improved:
	self.save_checkpoint(model, val_auc)
	self.counter = 0
	else:
	self.counter += 1
	if self.verbose:
	print(f"EarlyStopping counter: {self.counter} out of {self.patience}")
	if self.counter >= self.patience:
	self.early_stop = True

	def save_checkpoint(self, model, val_auc):
	"""Save current best model."""
	if self.verbose:
	print(f"Validation improved → Saving model (Score={val_auc:.4f}) to {self.save_path}")
	torch.save(model.state_dict(), self.save_path)

	# ============================================================================
	# ESM2 Embedding via HuggingFace
	# ============================================================================
	class ESM2Encoder(nn.Module):
	def __init__(self,
	device="cuda:0",
	layer=33,
	cache_dir='/data/cache'):
	"""
	Initialize an ESM2 encoder.

	Args:
	model_name (str): Name of the pretrained ESM2 model (e.g., 'esm2_t33_650M_UR50D').
	device (str): Device to run on, e.g. 'cuda:0', 'cuda:1', or 'cpu'.
	layer (int): Layer number from which to extract representations.
	"""
	super().__init__()
	self.device = device
	self.layer = layer

	if cache_dir is None:
	cache_dir = os.path.dirname(os.path.abspath(__file__))
	self.cache_dir = cache_dir
	os.makedirs(self.cache_dir, exist_ok=True)

	self.model, self.alphabet = esm.pretrained.esm2_t33_650M_UR50D()
	self.batch_converter = self.alphabet.get_batch_converter()
	self.model = self.model.eval().to(device)

	def _cache_path(self, prefix):
	base_dir = os.path.dirname(os.path.abspath(__file__))
	base_dir = base_dir + "/" + self.cache_dir
	os.makedirs(base_dir, exist_ok=True)
	return os.path.join(base_dir, f"{prefix}_esm2_layer{self.layer}.pt")

	def save_obj(self, obj, path):
	"""Save object to a file (no compression)."""
	torch.save(obj, path)

	def load_obj(self, path):
	"""Load object from a file (no compression)."""
	return torch.load(path, map_location="cpu", weights_only=False)

	@torch.no_grad()
	def _embed_batch(self, batch_data):
	batch_labels, batch_strs, batch_tokens = self.batch_converter(batch_data)
	batch_tokens = batch_tokens.to(self.device)
	results = self.model(batch_tokens, repr_layers=[self.layer], return_contacts=False)
	token_representations = results["representations"][self.layer]
	batch_lens = (batch_tokens != self.alphabet.padding_idx).sum(1)
	seq_reprs = []
	for i, tokens_len in enumerate(batch_lens):
	seq_repr = token_representations[i, 1:tokens_len-1].cpu()
	seq_reprs.append(seq_repr)
	return seq_reprs

	@torch.no_grad()
	def forward(self, df, seq_col, prefix, batch_size=64, re_embed=False, cache_save=True):
	"""
	Add or update embeddings for sequences in a DataFrame.
	- If there are new sequences, automatically update the dictionary and save.
	- If re_embed=True, force re-computation of all sequences.
	"""
	cache_path = self._cache_path(prefix)
	emb_dict = {}

	if os.path.exists(cache_path) and not re_embed:
	print(f"[ESM2] Loading cached embeddings from {cache_path}")
	emb_dict = self.load_obj(cache_path)
	else:
	if re_embed:
	print(f"[ESM2] Re-embedding all sequences for {prefix}")
	else:
	print(f"[ESM2] No existing cache for {prefix}, will create new.")

	seqs = [str(s).strip().upper() for s in df[seq_col].tolist() if isinstance(s, str)]
	unique_seqs = sorted(set(seqs))
	new_seqs = [s for s in unique_seqs if s not in emb_dict]

	if new_seqs:
	print(f"[ESM2] Found {len(new_seqs)} new sequences → computing embeddings...")
	data = [(str(i), s) for i, s in enumerate(new_seqs)]
	for i in tqdm(range(0, len(data), batch_size), desc=f"ESM2 update ({prefix})"):
	batch = data[i:i+batch_size]
	embs = self._embed_batch(batch)
	for (_, seq), emb in zip(batch, embs):
	emb_dict[seq] = emb.clone()
	if cache_save:
	print(f"[ESM2] Updating cache with new sequences")
	self.save_obj(emb_dict, cache_path)
	else:
	print(f"[ESM2] No new sequences for {prefix}, using existing cache")

	return emb_dict

	# ============================================================================
	# ESMFold (transformers)
	# ============================================================================
	class ESMFoldPredictorHF(nn.Module):
	def __init__(self,
	model_name="facebook/esmfold_v1",
	cache_dir=None,
	device='cpu',
	allow_tf32=True):
	super().__init__()
	self.model_name = model_name
	self.cache_dir = cache_dir
	self.device = device
	if allow_tf32:
	torch.backends.cuda.matmul.allow_tf32 = True
	torch.backends.cudnn.allow_tf32 = True

	# tokenizer and model
	print(f"Loading ESMFold model {model_name} on {device}... {'with' if cache_dir else 'without'} cache_dir: {cache_dir}")
	self.tokenizer = AutoTokenizer.from_pretrained(model_name, cache_dir=cache_dir)
	self.model = EsmForProteinFolding.from_pretrained(
	model_name, low_cpu_mem_usage=True, cache_dir=cache_dir
	).eval().to(self.device)

	@torch.no_grad()
	def infer_pdb_str(self, seq: str) -> str:
	pdb_str = self.model.infer_pdb(seq)
	return pdb_str

	@torch.no_grad()
	def forward_raw(self, seq: str):
	inputs = self.tokenizer([seq], return_tensors="pt", add_special_tokens=False)
	inputs = {k: v.to(self.device) for k, v in inputs.items()}
	outputs = self.model(**inputs)
	return outputs # ESMFoldOutput

	MAX_ASA_TIEN = {
	"ALA": 129.0, "ARG": 274.0, "ASN": 195.0, "ASP": 193.0, "CYS": 167.0,
	"GLN": 225.0, "GLU": 223.0, "GLY": 104.0, "HIS": 224.0, "ILE": 197.0,
	"LEU": 201.0, "LYS": 236.0, "MET": 224.0, "PHE": 240.0, "PRO": 159.0,
	"SER": 155.0, "THR": 172.0, "TRP": 285.0, "TYR": 263.0, "VAL": 174.0,
	}
	SS8_INDEX = {"H":0,"B":1,"E":2,"G":3,"I":4,"T":5,"S":6,"C":7,"-":7}

	class StructureFeatureExtractorNoDSSP(nn.Module):
	def __init__(self, device="cpu"):
	super().__init__()
	self.device = device

	self.in_dim = 6 + 8 + 1 + 1 + 1 # 17

	self.to(torch.device(self.device))

	@torch.no_grad()
	def _angles(self, traj):

	L = traj.n_residues

	sphi = np.zeros(L, dtype=np.float32); cphi = np.zeros(L, dtype=np.float32)
	spsi = np.zeros(L, dtype=np.float32); cpsi = np.zeros(L, dtype=np.float32)
	someg = np.zeros(L, dtype=np.float32); comeg = np.zeros(L, dtype=np.float32)

	# 1) phi: (C_{i-1}, N_i, CA_i, C_i) —— 当前残基 i 可用 atoms[1] (N_i) 来定位
	phi_idx, phi_vals = md.compute_phi(traj) # phi_vals: (1, n_phi)
	if phi_vals.size > 0:
	for k, atoms in enumerate(phi_idx):
	res_i = traj.topology.atom(int(atoms[1])).residue.index # N_i 所在残基
	if 0 <= res_i < L:
	ang = float(phi_vals[0, k])
	sphi[res_i] = np.sin(ang); cphi[res_i] = np.cos(ang)

	# 2) psi: (N_i, CA_i, C_i, N_{i+1}) —— 当前残基 i 可用 atoms[1] (CA_i)
	psi_idx, psi_vals = md.compute_psi(traj)
	if psi_vals.size > 0:
	for k, atoms in enumerate(psi_idx):
	res_i = traj.topology.atom(int(atoms[1])).residue.index # CA_i
	if 0 <= res_i < L:
	ang = float(psi_vals[0, k])
	spsi[res_i] = np.sin(ang); cpsi[res_i] = np.cos(ang)

	# 3) omega: (CA_i, C_i, N_{i+1}, CA_{i+1}) —— 当前残基 i 可用 atoms[0] (CA_i)
	omg_idx, omg_vals = md.compute_omega(traj)
	if omg_vals.size > 0:
	for k, atoms in enumerate(omg_idx):
	res_i = traj.topology.atom(int(atoms[0])).residue.index # CA_i
	if 0 <= res_i < L:
	ang = float(omg_vals[0, k])
	someg[res_i] = np.sin(ang); comeg[res_i] = np.cos(ang)

	angles_feat = np.stack([sphi, cphi, spsi, cpsi, someg, comeg], axis=-1) # [L, 6]
	return angles_feat.astype(np.float32)

	@torch.no_grad()
	def _ss8(self, traj: md.Trajectory):
	ss = md.compute_dssp(traj, simplified=False)[0]
	L = traj.n_residues
	onehot = np.zeros((L, 8), dtype=np.float32)
	for i, ch in enumerate(ss):
	onehot[i, SS8_INDEX.get(ch, 7)] = 1.0
	return onehot

	@torch.no_grad()
	def _rsa(self, traj: md.Trajectory):
	asa = md.shrake_rupley(traj, mode="residue")[0] # (L,)
	rsa = np.zeros_like(asa, dtype=np.float32)
	for i, res in enumerate(traj.topology.residues):
	max_asa = MAX_ASA_TIEN.get(res.name.upper(), None)
	rsa[i] = 0.0 if not max_asa else float(asa[i] / max_asa)
	return np.clip(rsa, 0.0, 1.0)[:, None]

	@torch.no_grad()
	def _contact_count(self, traj: md.Trajectory, cutoff_nm=0.8):
	L = traj.n_residues
	ca_atoms = traj.topology.select("name CA")
	if len(ca_atoms) == L:
	coors = traj.xyz[0, ca_atoms, :] # nm
	else:
	xyz = traj.xyz[0]
	coors = []
	for res in traj.topology.residues:
	idxs = [a.index for a in res.atoms]
	coors.append(xyz[idxs, :].mean(axis=0))
	coors = np.array(coors, dtype=np.float32)
	diff = coors[:, None, :] - coors[None, :, :]
	dist = np.sqrt((diff**2).sum(-1)) # nm
	mask = (dist < cutoff_nm).astype(np.float32)
	np.fill_diagonal(mask, 0.0)
	cnt = mask.sum(axis=1)
	return cnt[:, None].astype(np.float32)

	@torch.no_grad()
	def _plddt(self, pdb_file: str):
	# 用 Biopython 读取 PDB 的 B-factor（ESMFold/AlphaFold 会把 pLDDT 写在这里）
	from Bio.PDB import PDBParser
	import numpy as np

	parser = PDBParser(QUIET=True)
	structure = parser.get_structure("prot", pdb_file)
	model = structure[0]

	res_plddt = []
	for chain in model:
	for residue in chain:
	atoms = list(residue.get_atoms())
	if len(atoms) == 0:
	res_plddt.append(0.0)
	continue
	# 该残基原子 B-factor 的均值
	bvals = [float(atom.get_bfactor()) for atom in atoms]
	res_plddt.append(float(np.mean(bvals)))

	# 归一化到 [0,1]
	plddt = np.array(res_plddt, dtype=np.float32) / 100.0
	plddt = np.clip(plddt, 0.0, 1.0)
	return plddt[:, None] # [L,1]

	@torch.no_grad()
	def _parse_and_features(self, pdb_file: str):
	traj = md.load(pdb_file)
	L = traj.n_residues

	angles = self._angles(traj) # [L,6]
	ss8 = self._ss8(traj) # [L,8]
	rsa = self._rsa(traj) # [L,1]
	cnt = self._contact_count(traj) # [L,1]
	plddt = self._plddt(pdb_file) # [L,1]

	feats = np.concatenate([angles, ss8, rsa, cnt, plddt], axis=1).astype(np.float32) # [L,17]

	ca_atoms = traj.topology.select("name CA")
	if len(ca_atoms) == L:
	coors_nm = traj.xyz[0, ca_atoms, :]
	else:
	xyz = traj.xyz[0]
	res_coords = []
	for res in traj.topology.residues:
	idxs = [a.index for a in res.atoms]
	res_coords.append(xyz[idxs, :].mean(axis=0))
	coors_nm = np.array(res_coords, dtype=np.float32)
	coors_ang = coors_nm * 10.0 # nm -> Å
	return coors_ang.astype(np.float32), feats # [L,3], [L,17]

	@torch.no_grad()
	def forward(self, pdb_file: str):
	coors_ang, scalars = self._parse_and_features(pdb_file)
	coors = torch.tensor(coors_ang, dtype=torch.float32, device=self.device) # [N,3]
	scalars = torch.tensor(scalars, dtype=torch.float32, device=self.device) # [N,17]

	return scalars, coors # [N,17], [N,3]

	class ResiduePipelineWithHFESM:
	def __init__(self,
	esm_model_name="facebook/esmfold_v1",
	cache_dir=None,
	esm_device='cpu',
	allow_tf32=True
	):
	self.esm = ESMFoldPredictorHF(esm_model_name, cache_dir, esm_device, allow_tf32)
	self.struct_encoder = StructureFeatureExtractorNoDSSP(device=esm_device)
	self.cache_dir = cache_dir

	@torch.no_grad()
	def __call__(self, seq: str, save_pdb_path: str = None) -> torch.Tensor:
	pdb_str = self.esm.infer_pdb_str(seq)
	if save_pdb_path is None:
	tmpdir = self.cache_dir if self.cache_dir is not None else tempfile.gettempdir()
	save_pdb_path = str(Path(tmpdir) / "esmfold_pred_fold5.pdb")
	Path(save_pdb_path).write_text(pdb_str)

	struct_emb, struct_coords = self.struct_encoder(save_pdb_path)
	return struct_emb, struct_coords

	def sanitize_protein_seq(seq: str) -> str:
	if not isinstance(seq, str):
	return ""
	s = "".join(seq.split()).upper()
	allowed = set("ACDEFGHIKLMNPQRSTVWYXBZJUO")
	return "".join([c for c in s if c in allowed])

	@torch.no_grad()
	def batch_embed_to_dicts(
	df: pd.DataFrame,
	seq_col: str,
	pipeline,
	show_progress: bool = True,
	) -> Tuple[Dict[str, torch.Tensor], Dict[str, torch.Tensor], List[Tuple[str, str]]]:
	"""
	Returns:
	- emb_dict: {seq -> z(torch.Tensor[L, D])}
	- coord_dict:{seq -> coords(torch.Tensor[L, 3])}
	- failures: [(seq, err_msg), ...]
	"""

	raw_list = df[seq_col].astype(str).tolist()
	seqs = []
	for s in raw_list:
	ss = sanitize_protein_seq(s)
	if ss:
	seqs.append(ss)
	uniq_seqs = sorted(set(seqs))

	logger.info(f"Total rows: {len(df)}, valid seqs: {len(seqs)}, unique: {len(uniq_seqs)}")

	emb_dict: Dict[str, torch.Tensor] = {}
	coord_dict: Dict[str, torch.Tensor] = {}
	failures: List[Tuple[str, str]] = []

	iterator = tqdm(uniq_seqs, desc="ESMfold Predicting structure...") if show_progress else uniq_seqs
	for seq in tqdm(iterator):
	if seq in emb_dict:
	continue
	try:
	z_t, c_t = pipeline(seq) # z: [L, D], coords: [L, 3] (torch.Tensor)
	emb_dict[seq] = z_t.detach().float().cpu()
	coord_dict[seq] = c_t.detach().float().cpu()
	except Exception as e:
	failures.append((seq, repr(e)))
	continue

	logger.info(f"[DONE] OK: {len(emb_dict)}, Failed: {len(failures)}")
	if failures[:3]:
	logger.error("[SAMPLE failures]", failures[:3])
	return emb_dict, coord_dict, failures

	class ESMFoldEncoder(nn.Module):
	def __init__(self, model_name="facebook/esmfold_v1", esm_cache_dir="/data/esm_cache", cache_dir="/data/cache"):
	super(ESMFoldEncoder, self).__init__()
	self.model_name = model_name
	self.esm_cache_dir = esm_cache_dir
	self.cache_dir = cache_dir

	def save_obj(self, obj, path):
	"""Save object to a file (no compression)."""
	torch.save(obj, path)

	def load_obj(self, path):
	"""Load object from a file (no compression)."""
	return torch.load(path, map_location='cpu', weights_only=False)

	def load_esm_dict(self, device, df_data, chain, re_embed):

	def _clean_unique(series: pd.Series) -> list:
	cleaned = []
	for s in series.astype(str).tolist():
	ss = sanitize_protein_seq(s)
	if ss:
	cleaned.append(ss)
	return sorted(set(cleaned))

	def _retry_embed_df(
	df: pd.DataFrame,
	chain: str,
	max_retries: int = 2,
	show_progress: bool = True,
	):
	"""
	Try to embed protein sequences with retries on failures.

	Args:
	df (pd.DataFrame): A DataFrame containing a column `chain` with sequences.
	chain (str): The column name containing the sequences (e.g., "alpha", "beta").
	pipeline: An embedding pipeline, should return (embedding, coords) for a sequence.
	max_retries (int): Maximum number of retries for failed sequences.
	show_progress (bool): Whether to display tqdm progress bars.

	Returns:
	feat_dict (Dict[str, torch.Tensor]): {sequence -> embedding tensor [L, D]}.
	coord_dict (Dict[str, torch.Tensor]): {sequence -> coordinate tensor [L, 3]}.
	failures (List[Tuple[str, str]]): List of (sequence, error_message) that still failed after retries.
	"""

	pipeline = ResiduePipelineWithHFESM(
	esm_model_name=self.model_name,
	cache_dir=self.esm_cache_dir,
	esm_device=device
	)

	# 1. First attempt
	feat_dict, coord_dict, failures = batch_embed_to_dicts(
	df, chain, pipeline, show_progress=show_progress
	)

	# 2. Retry loop for failed sequences
	tries = 0
	while failures and tries < max_retries:
	tries += 1
	retry_seqs = [s for s, _ in failures]
	logger.info(f"[retry {tries}/{max_retries}] {len(retry_seqs)} sequences")
	retry_df = pd.DataFrame({chain: retry_seqs})

	f2, c2, failures = batch_embed_to_dicts(
	retry_df, chain, pipeline, show_progress=show_progress
	)
	feat_dict.update(f2)
	coord_dict.update(c2)

	return feat_dict, coord_dict, failures

	def update_with_new_seqs(feat_dict, coord_dict, chain):
	base_dir = os.path.dirname(os.path.abspath(__file__))
	base_dir = base_dir + "/" + self.cache_dir
	os.makedirs(base_dir, exist_ok=True)
	path_feat = os.path.join(base_dir, f"{chain}_feat_dict.pt")
	path_coords = os.path.join(base_dir, f"{chain}_coord_dict.pt")

	all_seqs_clean = _clean_unique(df_data[chain])
	new_seqs = [s for s in all_seqs_clean if s not in feat_dict]
	if not new_seqs:
	logger.info(f"No new {chain} sequences found")
	return feat_dict, coord_dict

	logger.info(f"Found new {chain} sequences, embedding...")
	df_new = pd.DataFrame({chain: new_seqs})
	new_feat_dict, new_coord_dict, failures = _retry_embed_df(df_new, chain, max_retries=100)
	feat_dict.update(new_feat_dict)
	coord_dict.update(new_coord_dict)
	self.save_obj(feat_dict, path_feat)
	self.save_obj(coord_dict, path_coords)

	if failures:
	for seq, err in failures:
	logger.error(f"[create] failed: {seq} \| {err}")

	logger.info(f"Updated and saved {path_feat} and {path_coords}")

	return feat_dict, coord_dict

	def get_or_create_dict(chain):
	base_dir = os.path.dirname(os.path.abspath(__file__)) + "/" + self.cache_dir
	os.makedirs(base_dir, exist_ok=True)
	path_feat = os.path.join(base_dir, f"{chain}_feat_dict.pt")
	path_coords = os.path.join(base_dir, f"{chain}_coord_dict.pt")

	if os.path.exists(path_feat) and not re_embed:
	logger.info(f"Loading {path_feat} and {path_coords}")
	feat_dict = self.load_obj(path_feat)
	coord_dict = self.load_obj(path_coords)
	else:
	logger.info(f"{path_feat} and {path_coords} not found or re_embed=True, generating...")
	unique_seqs = _clean_unique(df_data[chain])
	df_uniq = pd.DataFrame({chain: unique_seqs})
	feat_dict, coord_dict, failures = _retry_embed_df(
	df_uniq, chain, show_progress=True, max_retries=100
	)
	self.save_obj(feat_dict, path_feat)
	self.save_obj(coord_dict, path_coords)

	if failures:
	for seq, err in failures:
	logger.error(f"[create] failed: {seq} \| {err}")

	logger.info(f"Saved {path_feat} and {path_coords}")

	return feat_dict, coord_dict

	self.dict[chain+'_feat'], self.dict[chain+'_coord'] = update_with_new_seqs(*get_or_create_dict(chain), chain)

	def pad_and_stack(self, batch_feats, L_max, batch_coors):
	"""
	batch_feats: list of [L_i, D] tensors
	batch_coors: list of [L_i, 3] tensors
	return:
	feats: [B, L_max, D]
	coors: [B, L_max, 3]
	mask : [B, L_max] (True for real tokens)
	"""
	assert len(batch_feats) == len(batch_coors)
	B = len(batch_feats)
	D = batch_feats[0].shape[-1]

	feats_pad = []
	coors_pad = []
	masks = []

	for x, c in zip(batch_feats, batch_coors):
	L = x.shape[0]
	pad_L = L_max - L
	# pad feats/coors with zeros
	feats_pad.append(torch.nn.functional.pad(x, (0, 0, 0, pad_L))) # [L_max, D]
	coors_pad.append(torch.nn.functional.pad(c, (0, 0, 0, pad_L))) # [L_max, 3]
	m = torch.zeros(L_max, dtype=torch.bool)
	m[:L] = True
	masks.append(m)

	feats = torch.stack(feats_pad, dim=0) # [B, L_max, D]
	coors = torch.stack(coors_pad, dim=0) # [B, L_max, 3]
	mask = torch.stack(masks, dim=0) # [B, L_max]
	return feats, coors, mask

	def forward(self, df_data, chain, device='cpu', re_embed=False):
	"""
	df_data: pd.DataFrame with a column `chain` containing sequences
	chain: str, e.g. "alpha" or "beta"
	device: str, e.g. 'cpu' or 'cuda:0'
	re_embed: bool, whether to re-embed even if cached files exist
	"""
	self.dict = {}
	self.load_esm_dict(device, df_data, chain, re_embed)

	batch_feats = []
	batch_coors = []
	for seq in df_data[chain].astype(str).tolist():
	ss = sanitize_protein_seq(seq)
	if ss in self.dict[chain+'_feat'] and ss in self.dict[chain+'_coord']:
	batch_feats.append(self.dict[chain+'_feat'][ss])
	batch_coors.append(self.dict[chain+'_coord'][ss])
	else:
	raise ValueError(f"Sequence not found in embedding dict: {ss}")

	# L_max = max(x.shape[0] for x in batch_feats)

	return batch_feats, batch_coors


	# =================================== Dataset / Collate ===========================================
	class PepHLA_Dataset(torch.utils.data.Dataset):
	def __init__(self, df, phys_dict, esm2_dict, struct_dict):
	self.df = df
	self.phys_dict = phys_dict
	self.esm2_dict = esm2_dict
	self.struct_dict = struct_dict

	def __len__(self):
	return len(self.df)

	def __getitem__(self, idx):
	row = self.df.iloc[idx]
	pep = row['peptide']
	hla = row['HLA_full']
	label = torch.tensor(row['label'], dtype=torch.float32)

	pep_phys = self.phys_dict['pep'][pep]
	pep_esm = self.esm2_dict['pep'][pep]

	hla_phys = self.phys_dict['hla'][hla]
	hla_esm = self.esm2_dict['hla'][hla]
	hla_struct, hla_coord = self.struct_dict[hla]

	return {
	'pep_phys': pep_phys,
	'pep_esm': pep_esm,
	'hla_phys': hla_phys,
	'hla_esm': hla_esm,
	'hla_struct': hla_struct,
	'hla_coord': hla_coord,
	'label': label,
	'pep_id': pep,
	'hla_id': hla,
	}

	def peptide_hla_collate_fn(batch):
	def pad_or_crop(x, original_len, target_len):
	L, D = x.shape
	valid_len = min(original_len, target_len)
	valid_part = x[:valid_len]
	if valid_len < target_len:
	pad_len = target_len - valid_len
	padding = x.new_zeros(pad_len, D)
	return torch.cat([valid_part, padding], dim=0)
	else:
	return valid_part

	out_batch = {}

	pep_lens = [len(item['pep_id']) for item in batch]
	max_pep_len = max(pep_lens)

	for key in batch[0].keys():
	if key == 'label':
	out_batch[key] = torch.stack([item[key] for item in batch])
	elif key.startswith('pep_') and not key.endswith('_id'):
	out_batch[key] = torch.stack([pad_or_crop(item[key], len(item['pep_id']), max_pep_len) for item in batch])
	elif key.endswith('_id'):
	out_batch[key] = [item[key] for item in batch]
	else:
	out_batch[key] = torch.stack([item[key] for item in batch])

	def make_mask(lengths, max_len):
	masks = []
	for L in lengths:
	m = torch.zeros(max_len, dtype=torch.bool)
	m[:L] = True
	masks.append(m)
	return torch.stack(masks)

	out_batch['pep_mask'] = make_mask(pep_lens, max_pep_len)
	return out_batch

	# =================================== Dataset / Collate ===========================================
	class TCRPepHLA_Dataset(torch.utils.data.Dataset):
	"""
	Dataset for TCRα + TCRβ + peptide + HLA binding.
	"""
	def __init__(self, df, phys_dict, esm2_dict, struct_dict, pep_hla_feat_dict):
	self.df = df
	self.phys_dict = phys_dict
	self.esm2_dict = esm2_dict
	self.struct_dict = struct_dict
	self.pep_hla_feat_dict = pep_hla_feat_dict

	def __len__(self):
	return len(self.df)

	def __getitem__(self, idx):
	row = self.df.iloc[idx]
	tcra = row['tcra']
	tcrb = row['tcrb']
	pep = row['peptide']
	hla = row['HLA_full']
	label = torch.tensor(row['label'], dtype=torch.float32)

	# ---- TCRα ----
	tcra_phys = self.phys_dict['tcra'][tcra]
	tcra_esm = self.esm2_dict['tcra'][tcra]
	tcra_struct, tcra_coord = self.struct_dict['tcra'][tcra]
	tcra_cdr3_start = torch.tensor(row['cdr3a_start'], dtype=torch.long)
	tcra_cdr3_end = torch.tensor(row['cdr3a_end'], dtype=torch.long)

	# ---- TCRβ ----
	tcrb_phys = self.phys_dict['tcrb'][tcrb]
	tcrb_esm = self.esm2_dict['tcrb'][tcrb]
	tcrb_struct, tcrb_coord = self.struct_dict['tcrb'][tcrb]
	tcrb_cdr3_start = torch.tensor(row['cdr3b_start'], dtype=torch.long)
	tcrb_cdr3_end = torch.tensor(row['cdr3b_end'], dtype=torch.long)

	# ---- peptide ----
	pep_phys = self.phys_dict['pep'][pep]
	pep_esm = self.esm2_dict['pep'][pep]
	pep_struct, pep_coord = self.struct_dict['pep'][pep]

	# ---- HLA ----
	hla_phys = self.phys_dict['hla'][hla]
	hla_esm = self.esm2_dict['hla'][hla]
	hla_struct, hla_coord = self.struct_dict['hla'][hla]

	feats = self.pep_hla_feat_dict[(pep, hla)]
	pep_feat_pretrain = feats['pep_feat_pretrain']
	hla_feat_pretrain = feats['hla_feat_pretrain']

	return {
	# TCRα
	'tcra_phys': tcra_phys,
	'tcra_esm': tcra_esm,
	'tcra_struct': tcra_struct,
	'tcra_coord': tcra_coord,
	'cdr3a_start': tcra_cdr3_start,
	'cdr3a_end': tcra_cdr3_end,

	# TCRβ
	'tcrb_phys': tcrb_phys,
	'tcrb_esm': tcrb_esm,
	'tcrb_struct': tcrb_struct,
	'tcrb_coord': tcrb_coord,
	'cdr3b_start': tcrb_cdr3_start,
	'cdr3b_end': tcrb_cdr3_end,

	# peptide
	'pep_phys': pep_phys,
	'pep_esm': pep_esm,
	'pep_struct': pep_struct,
	'pep_coord': pep_coord,

	# HLA
	'hla_phys': hla_phys,
	'hla_esm': hla_esm,
	'hla_struct': hla_struct,
	'hla_coord': hla_coord,

	'tcra_id': tcra,
	'tcrb_id': tcrb,
	'pep_id': pep,
	'hla_id': hla,
	'label': label,

	'pep_feat_pretrain': pep_feat_pretrain,
	'hla_feat_pretrain': hla_feat_pretrain,
	}

	# =================================== Collate Function ===========================================
	def tcr_pep_hla_collate_fn(batch):
	def pad_or_crop(x, original_len, target_len):
	L, D = x.shape
	valid_len = min(original_len, target_len)
	valid_part = x[:valid_len]
	if valid_len < target_len:
	pad_len = target_len - valid_len
	padding = x.new_zeros(pad_len, D)
	return torch.cat([valid_part, padding], dim=0)
	else:
	return valid_part

	out_batch = {}

	tcra_lens = [len(item['tcra_id']) for item in batch]
	tcrb_lens = [len(item['tcrb_id']) for item in batch]
	pep_lens = [len(item['pep_id']) for item in batch]

	max_tcra_len = max(tcra_lens)
	max_tcrb_len = max(tcrb_lens)
	max_pep_len = max(pep_lens)

	for key in batch[0].keys():
	if key == 'label':
	out_batch[key] = torch.stack([item[key] for item in batch])

	elif key.startswith('tcra_') and not key.endswith('_id'):
	out_batch[key] = torch.stack([pad_or_crop(item[key], len(item['tcra_id']), max_tcra_len) for item in batch])

	elif key.startswith('tcrb_') and not key.endswith('_id'):
	out_batch[key] = torch.stack([pad_or_crop(item[key], len(item['tcrb_id']), max_tcrb_len) for item in batch])

	elif key.startswith('pep_') and not key.endswith('_id'):
	out_batch[key] = torch.stack([pad_or_crop(item[key], len(item['pep_id']), max_pep_len) for item in batch])

	elif key.endswith('_id'):
	out_batch[key] = [item[key] for item in batch]

	else:
	out_batch[key] = torch.stack([item[key] for item in batch])

	def make_mask(lengths, max_len):
	masks = []
	for L in lengths:
	m = torch.zeros(max_len, dtype=torch.bool)
	m[:L] = True
	masks.append(m)
	return torch.stack(masks)

	out_batch['tcra_mask'] = make_mask(tcra_lens, max_tcra_len)
	out_batch['tcrb_mask'] = make_mask(tcrb_lens, max_tcrb_len)
	out_batch['pep_mask'] = make_mask(pep_lens, max_pep_len)

	return out_batch

	# ==================================== 小积木：投影 + 门控 =========================================
	class ResidueProjector(nn.Module):
	"""把不同分支的通道维度对齐到同一 D"""
	def __init__(self, in_dim, out_dim):
	super().__init__()
	self.proj = nn.Linear(in_dim, out_dim) if in_dim != out_dim else nn.Identity()
	def forward(self, x): # x: [B,L,Di]
	return self.proj(x)

	class ResidueDoubleFusion(nn.Module):
	"""
	ResidueDoubleFusion:
	A residue-level two-branch fusion module that combines two modalities (x1, x2)
	using cross-attention followed by gated residual fusion and linear projection.

	Typical usage:
	- x1: physicochemical features
	- x2: ESM embeddings (or structure features)
	"""
	def __init__(self, dim, num_heads=8, dropout=0.1):
	super().__init__()
	self.dim = dim

	# Cross-attention: allows information flow between two modalities
	self.cross_attn = nn.MultiheadAttention(
	embed_dim=dim, num_heads=num_heads, dropout=dropout, batch_first=True
	)

	# Gating mechanism: adaptively weight two modalities per residue
	self.gate = nn.Sequential(
	nn.Linear(dim * 2, dim),
	nn.ReLU(),
	nn.Linear(dim, 1),
	nn.Sigmoid()
	)

	# Optional projection after fusion
	self.out_proj = nn.Linear(dim, dim)

	# Layer norms for stable training
	self.norm_x1 = nn.LayerNorm(dim)
	self.norm_x2 = nn.LayerNorm(dim)
	self.norm_out = nn.LayerNorm(dim)

	def forward(self, x1, x2):
	"""
	Args:
	x1: Tensor [B, L, D] - first modality (e.g., physicochemical)
	x2: Tensor [B, L, D] - second modality (e.g., ESM embeddings)
	Returns:
	fused: Tensor [B, L, D] - fused residue-level representation
	"""

	# 1) Normalize both branches
	x1_norm = self.norm_x1(x1)
	x2_norm = self.norm_x2(x2)

	# 2) Cross-attention (x1 queries, x2 keys/values)
	# This allows x1 to attend to x2 at each residue position
	attn_out, _ = self.cross_attn(
	query=x1_norm,
	key=x2_norm,
	value=x2_norm
	) # [B, L, D]

	# 3) Gating between original x1 and attention-enhanced x2
	gate_val = self.gate(torch.cat([x1, attn_out], dim=-1)) # [B, L, 1]
	fused = gate_val * x1 + (1 - gate_val) * attn_out

	# 4) Optional projection + normalization
	fused = self.out_proj(fused)
	fused = self.norm_out(fused)

	return fused

	class ResidueTripleFusion(nn.Module):
	"""
	ResidueTripleFusion:
	A hierarchical three-branch feature fusion module for residue-level representations.

	Step 1: Fuse physicochemical features and protein language model embeddings.
	Step 2: Fuse the intermediate representation with structure-based features.

	Each fusion step uses ResidueDoubleFusion (cross-attention + gating + linear projection).
	"""
	def __init__(self, dim, num_heads=8, dropout=0.1):
	super().__init__()
	# Fuse physicochemical + ESM embeddings
	self.fuse_phys_esm = ResidueDoubleFusion(dim, num_heads=num_heads, dropout=dropout)
	# Fuse the fused phys+esm representation with structure embeddings
	self.fuse_f12_struct = ResidueDoubleFusion(dim, num_heads=num_heads, dropout=dropout)

	def forward(self, phys, esm, struct):
	"""
	Args:
	phys: Tensor [B, L, D], physicochemical features (e.g., AAindex-based)
	esm: Tensor [B, L, D], protein language model embeddings (e.g., ESM2, ProtT5)
	struct: Tensor [B, L, D], structure-derived features (e.g., torsion, RSA)

	Returns:
	fused: Tensor [B, L, D], final fused representation
	"""
	# Step 1: Fuse physicochemical and ESM embeddings
	f12 = self.fuse_phys_esm(phys, esm)

	# Step 2: Fuse the intermediate fused representation with structure features
	fused = self.fuse_f12_struct(f12, struct)

	return fused

	class BANLayer(nn.Module):
	"""
	Bilinear Attention Network Layer with proper 2D masked-softmax.
	v_mask: [B, L_v] True=valid
	q_mask: [B, L_q] True=valid
	"""
	def __init__(self, v_dim, q_dim, h_dim, h_out, act='ReLU', dropout=0.2, k=3):
	super().__init__()
	self.c = 32
	self.k = k
	self.v_dim = v_dim
	self.q_dim = q_dim
	self.h_dim = h_dim
	self.h_out = h_out

	self.v_net = FCNet([v_dim, h_dim * self.k], act=act, dropout=dropout)
	self.q_net = FCNet([q_dim, h_dim * self.k], act=act, dropout=dropout)

	if 1 < k:
	self.p_net = nn.AvgPool1d(self.k, stride=self.k)

	if h_out <= self.c:
	self.h_mat = nn.Parameter(torch.Tensor(1, h_out, 1, h_dim * self.k).normal_())
	self.h_bias = nn.Parameter(torch.Tensor(1, h_out, 1, 1).normal_())
	else:
	self.h_net = weight_norm(nn.Linear(h_dim * self.k, h_out), dim=None)

	self.bn = nn.BatchNorm1d(h_dim)

	def attention_pooling(self, v, q, att_map): # att_map: [B, L_v, L_q]
	logits = torch.einsum('bvk,bvq,bqk->bk', (v, att_map, q))
	if 1 < self.k:
	logits = self.p_net(logits.unsqueeze(1)).squeeze(1) * self.k
	return logits

	def _masked_softmax_2d(self, logits, v_mask, q_mask):
	"""
	logits: [B, h_out, L_v, L_q]
	v_mask: [B, L_v] or None
	q_mask: [B, L_q] or None
	return: probs [B, h_out, L_v, L_q] (masked entries=0, 在有效的二维子矩阵内归一化)
	"""
	B, H, Lv, Lq = logits.shape
	device = logits.device
	if v_mask is None:
	v_mask = torch.ones(B, Lv, dtype=torch.bool, device=device)
	if q_mask is None:
	q_mask = torch.ones(B, Lq, dtype=torch.bool, device=device)

	mask2d = (v_mask[:, :, None] & q_mask[:, None, :]) # [B, Lv, Lq]
	mask2d = mask2d[:, None, :, :].expand(B, H, Lv, Lq) # [B, H, Lv, Lq]

	logits = logits.masked_fill(~mask2d, -float('inf'))

	# 在 Lv*Lq 的联合空间做 softmax
	flat = logits.view(B, H, -1) # [B, H, Lv*Lq]
	# 处理极端情况：某些样本可能无有效格子，避免 NaN
	flat = torch.where(torch.isinf(flat), torch.full_like(flat, -1e9), flat)
	flat = F.softmax(flat, dim=-1)
	flat = torch.nan_to_num(flat, nan=0.0) # 安全兜底
	probs = flat.view(B, H, Lv, Lq)

	# 把被 mask 的位置清零（数值稳定 & 便于可视化）
	probs = probs * mask2d.float()
	return probs

	def forward(self, v, q, v_mask=None, q_mask=None, softmax=True):
	"""
	v: [B, L_v, Dv], q: [B, L_q, Dq]
	"""
	B, L_v, _ = v.size()
	_, L_q, _ = q.size()

	v_ = self.v_net(v) # [B, L_v, h_dim*k]
	q_ = self.q_net(q) # [B, L_q, h_dim*k]

	if self.h_out <= self.c:
	att_maps = torch.einsum('xhyk,bvk,bqk->bhvq', (self.h_mat, v_, q_)) + self.h_bias # [B,H,Lv,Lq]
	else:
	v_t = v_.transpose(1, 2).unsqueeze(3) # [B, K, Lv, 1]
	q_t = q_.transpose(1, 2).unsqueeze(2) # [B, K, 1, Lq]
	d_ = torch.matmul(v_t, q_t) # [B, K, Lv, Lq]
	att_maps = self.h_net(d_.permute(0, 2, 3, 1)) # [B, Lv, Lq, H]
	att_maps = att_maps.permute(0, 3, 1, 2) # [B, H, Lv, Lq]

	if softmax:
	att_maps = self._masked_softmax_2d(att_maps, v_mask, q_mask)
	else:
	# 即使不 softmax，也把无效格子清 0，避免泄漏
	if v_mask is not None:
	att_maps = att_maps.masked_fill(~v_mask[:, None, :, None], 0.0)
	if q_mask is not None:
	att_maps = att_maps.masked_fill(~q_mask[:, None, None, :], 0.0)

	# 注意：此时 v_ / q_ 仍是 [B, L, K]，与 att_maps 的 [B,H,Lv,Lq] 对齐
	logits = self.attention_pooling(v_, q_, att_maps[:, 0, :, :])
	for i in range(1, self.h_out):
	logits = logits + self.attention_pooling(v_, q_, att_maps[:, i, :, :])

	logits = self.bn(logits)
	return logits, att_maps

	class FCNet(nn.Module):
	def __init__(self, dims, act='ReLU', dropout=0.2):
	super(FCNet, self).__init__()

	layers = []
	for i in range(len(dims) - 2):
	in_dim = dims[i]
	out_dim = dims[i + 1]
	if 0 < dropout:
	layers.append(nn.Dropout(dropout))
	layers.append(weight_norm(nn.Linear(in_dim, out_dim), dim=None))
	if '' != act:
	layers.append(getattr(nn, act)())
	if 0 < dropout:
	layers.append(nn.Dropout(dropout))
	layers.append(weight_norm(nn.Linear(dims[-2], dims[-1]), dim=None))
	if '' != act:
	layers.append(getattr(nn, act)())

	self.main = nn.Sequential(*layers)

	def forward(self, x):
	return self.main(x)

	class StackedEGNN(nn.Module):
	def __init__(self, dim, layers, update_coors=False, **egnn_kwargs):
	super().__init__()
	self.layers = nn.ModuleList([
	EGNN(dim=dim, update_coors=update_coors, **egnn_kwargs)
	for _ in range(layers)
	])

	def forward(self, feats, coors, mask=None):
	# feats: [B, L_max, D], coors: [B, L_max, 3], mask: [B, L_max] (bool)
	for layer in self.layers:
	feats, coors = layer(feats, coors, mask=mask)
	return feats, coors

	class FocalLoss(nn.Module):
	def __init__(self, alpha=0.5, gamma=2, reduction='mean'):
	super(FocalLoss, self).__init__()
	self.alpha = alpha
	self.gamma = gamma
	self.reduction = reduction

	def forward(self, inputs, targets):
	bce_loss = F.binary_cross_entropy_with_logits(inputs, targets, reduction='none')
	p_t = torch.exp(-bce_loss)

	alpha_weight = self.alpha * targets + (1 - self.alpha) * (1 - targets)
	loss = alpha_weight * (1 - p_t) ** self.gamma * bce_loss

	if self.reduction == 'mean':
	return torch.mean(loss)
	elif self.reduction == 'sum':
	return torch.sum(loss)
	else:
	return loss

	# ===================================== 主模型（完全版） ===========================================
	class PeptideHLABindingPredictor(nn.Module):
	def __init__(
	self,
	phys_dim=20, # 物化编码的输出维度（你定义的 PhysicochemicalEncoder）
	pep_dim=256, # 统一后的 peptide 通道
	hla_dim=256, # 统一后的 HLA 通道
	bilinear_dim=256,
	pseudo_seq_pos=None, # 口袋位点（假定 0-based 且落在 [0,179]）
	device="cuda:0",
	loss_fn='bce',
	alpha=0.5,
	gamma=2.0,
	dropout=0.2,
	pos_weights=None
	):
	super().__init__()
	self.device = device
	self.pep_dim = pep_dim
	self.hla_dim = hla_dim
	self.bilinear_dim = bilinear_dim
	self.alpha = alpha
	self.gamma = gamma
	self.dropout = dropout
	if loss_fn == 'bce':
	self.loss_fn = nn.BCEWithLogitsLoss(pos_weight=torch.tensor([pos_weights]) if pos_weights is not None else None)
	elif loss_fn == 'focal':
	self.loss_fn = FocalLoss(alpha=alpha, gamma=gamma)
	else:
	raise ValueError(f"Unknown loss function: {loss_fn}")

	self.se3_model = StackedEGNN(
	dim=17, layers=3
	)

	self.max_pep_len = 20
	self.max_hla_len = 180

	self.pep_pos_embed = nn.Parameter(torch.randn(self.max_pep_len, pep_dim))
	self.hla_pos_embed = nn.Parameter(torch.randn(self.max_hla_len, hla_dim))

	# —— 分支投影到统一维度（逐残基）——
	# peptide 分支（Physicochem -> pep_dim, ESM2(1280) -> pep_dim）
	self.proj_pep_phys = ResidueProjector(in_dim=phys_dim, out_dim=pep_dim) # 你的 PhysEnc 输出维设成 pep_dim
	self.proj_pep_esm = ResidueProjector(in_dim=1280, out_dim=pep_dim)

	# HLA 分支（Physicochem -> hla_dim, ESM2(1280) -> hla_dim, Struct(17/或se3_out) -> hla_dim）
	self.proj_hla_phys = ResidueProjector(in_dim=phys_dim, out_dim=hla_dim) # 你的 PhysEnc 输出维设成 hla_dim
	self.proj_hla_esm = ResidueProjector(in_dim=1280, out_dim=hla_dim)
	self.proj_hla_se3 = ResidueProjector(in_dim=17, out_dim=hla_dim) # 让 se3_model 输出维就是 hla_dim

	# —— 门控融合（逐残基）——
	self.gate_pep = ResidueDoubleFusion(pep_dim) # pep_phys × pep_esm
	self.gate_hla = ResidueTripleFusion(hla_dim) # hla_phys × hla_esm × hla_struct

	d_model = self.pep_dim
	n_heads = 8

	# 1. 用于 "Peptide 查询 HLA" (pep_q_hla_kv)
	self.cross_attn_pep_hla = nn.MultiheadAttention(
	embed_dim=d_model,
	num_heads=n_heads,
	dropout=self.dropout,
	batch_first=True
	)
	self.norm_cross_pep = nn.LayerNorm(d_model)

	# 2. 用于 "HLA 查询 Peptide" (hla_q_pep_kv)
	self.cross_attn_hla_pep = nn.MultiheadAttention(
	embed_dim=d_model,
	num_heads=n_heads,
	dropout=self.dropout,
	batch_first=True
	)
	self.norm_cross_hla = nn.LayerNorm(d_model)

	# —— 交互模块（Bilinear attention map）——
	self.bi_attn = BANLayer(v_dim=pep_dim, q_dim=hla_dim, h_dim=bilinear_dim, h_out=4, k=3)

	# —— 头部 ——
	self.head = nn.Sequential(
	nn.Linear(bilinear_dim, bilinear_dim),
	nn.ReLU(),
	nn.Linear(bilinear_dim, 1)
	)

	# —— 口袋位点 ——
	if pseudo_seq_pos is None:
	pseudo_seq_pos = [i-2 for i in [7, 9, 24, 45, 59, 62, 63, 66, 67, 69, 70, 73, 74, 76, 77, 80, 81, 84, 95, 97, 99, 114, 116, 118, 143, 147, 150, 152, 156, 158, 159, 163, 167, 171]]
	self.register_buffer("contact_idx", torch.tensor(pseudo_seq_pos, dtype=torch.long))

	# --------------------------------------------
	# Transformer Encoders for peptide & HLA
	# --------------------------------------------
	encoder_layer_pep = TransformerEncoderLayer(
	d_model=pep_dim, # 输入维度
	nhead=8, # 注意力头数（可调）
	dim_feedforward=pep_dim*4,
	dropout=self.dropout,
	batch_first=True # 输入形状 [B,L,D]
	)
	self.pep_encoder = TransformerEncoder(encoder_layer_pep, num_layers=2) # 可以调整层数

	encoder_layer_hla = TransformerEncoderLayer(
	d_model=hla_dim,
	nhead=8,
	dim_feedforward=hla_dim*4,
	dropout=self.dropout,
	batch_first=True
	)
	self.hla_encoder = TransformerEncoder(encoder_layer_hla, num_layers=1)

	# -------------------------- 工具：把 list of [L,D] pad 成 [B,L_max,D] --------------------------
	def _pad_stack(self, tensors, L_max=None):
	Ls = [t.shape[0] for t in tensors]
	if L_max is None: L_max = max(Ls)
	D = tensors[0].shape[-1]
	B = len(tensors)
	out = tensors[0].new_zeros((B, L_max, D))
	mask = torch.zeros(B, L_max, dtype=torch.bool, device=out.device)
	for i, t in enumerate(tensors):
	L = t.shape[0]
	out[i, :L] = t
	mask[i, :L] = True
	return out, mask # [B,L_max,D], [B,L_max]

	# ----------------------------------- 口袋掩码 --------------------------------------

	def _mask_to_pockets(self, hla_feat):
	"""
	从 HLA 特征中只保留 pocket 位点，返回：
	- hla_pocket: [B, n_pocket, D]
	- pocket_mask: [B, n_pocket] (全部 True)
	"""
	B, L, D = hla_feat.shape

	# ensure idx in [0, L-1]
	idx = self.contact_idx.clamp(min=0, max=L-1)
	# gather pocket features
	hla_pocket = hla_feat[:, idx, :] # [B, n_pocket, D]

	return hla_pocket

	def add_positional_encoding(self, x, pos_embed):
	"""
	x: [B, L, D]
	pos_embed: [L_max, D]
	"""
	B, L, D = x.shape
	# 截取前 L 个位置编码
	pe = pos_embed[:L, :].unsqueeze(0).expand(B, -1, -1) # [B, L, D]
	return x + pe

	def forward(self, batch):
	# take batch from DataLoader
	pep_phys = batch['pep_phys'].to(self.device, non_blocking=True)
	pep_esm = batch['pep_esm'].to(self.device, non_blocking=True)
	hla_phys = batch['hla_phys'].to(self.device, non_blocking=True)
	hla_esm = batch['hla_esm'].to(self.device, non_blocking=True)
	hla_struct = batch['hla_struct'].to(self.device, non_blocking=True)
	hla_coord = batch['hla_coord'].to(self.device, non_blocking=True)
	labels = batch['label'].to(self.device)

	# 1) peptide 物化 + ESM2 → gate 融合
	pep_phys = self.proj_pep_phys(pep_phys)
	pep_esm = self.proj_pep_esm(pep_esm)
	pep_feat = self.gate_pep(pep_phys, pep_esm) # [B, Lp, D]

	pep_feat = self.add_positional_encoding(pep_feat, self.pep_pos_embed)
	pep_feat = self.pep_encoder(pep_feat, src_key_padding_mask=~batch['pep_mask'].to(self.device, non_blocking=True))

	# 2) HLA 物化 + ESM2 + 结构 → SE3 → gate 融合
	hla_phys = self.proj_hla_phys(hla_phys)
	hla_esm = self.proj_hla_esm(hla_esm)
	# hla_struct 是 [B, 180, 17]，先过 SE3
	hla_se3 = self.se3_model(hla_struct, hla_coord, None)[0] # [B, 180, 17]
	hla_se3 = self.proj_hla_se3(hla_se3) # →256
	hla_feat = self.gate_hla(hla_phys, hla_esm, hla_se3)

	hla_feat = self.add_positional_encoding(hla_feat, self.hla_pos_embed)
	hla_feat = self.hla_encoder(hla_feat)

	# cross attention for pep
	pep_feat_cross, _ = self.cross_attn_pep_hla(
	query=pep_feat,
	key=hla_feat,
	value=hla_feat,
	key_padding_mask=None
	)

	# cross attention for hla
	hla_feat_cross, _ = self.cross_attn_hla_pep(
	query=hla_feat,
	key=pep_feat,
	value=pep_feat,
	key_padding_mask=~batch['pep_mask'].to(self.device, non_blocking=True)
	)

	pep_feat_updated = self.norm_cross_pep(pep_feat + pep_feat_cross)
	hla_feat_updated = self.norm_cross_hla(hla_feat + hla_feat_cross)

	# 3) mask HLA 口袋位点
	hla_pocket = self._mask_to_pockets(hla_feat_updated)

	# 4) bilinear attention
	fused_vec, attn = self.bi_attn(
	pep_feat_updated,
	hla_pocket,
	v_mask=batch['pep_mask'].to(self.device, non_blocking=True),
	q_mask=None
	)
	logits = self.head(fused_vec).squeeze(-1)

	probs = torch.sigmoid(logits).detach().cpu().numpy()

	binding_loss = self.loss_fn(logits, labels.float())

	return probs, binding_loss, attn.detach().cpu().numpy().sum(axis=1), fused_vec.detach().cpu().numpy()

	# -------------------------- 编码器复用接口（给 TCR-HLA 模型用） --------------------------
	def _pad_peptide(self, x, max_len):
	"""Pad peptide feature tensor [1, L, D] to [1, max_len, D]."""
	B, L, D = x.shape
	if L < max_len:
	pad = x.new_zeros(B, max_len - L, D)
	return torch.cat([x, pad], dim=1)
	else:
	return x[:, :max_len, :]

	@torch.no_grad()
	def encode_peptide_hla(self, pep_id, pep_phys, pep_esm, hla_phys, hla_esm, hla_struct, hla_coord, max_pep_len):
	Lp = len(pep_id)

	pep_phys = self.proj_pep_phys(pep_phys)
	pep_esm = self.proj_pep_esm(pep_esm)

	pep_phys = self._pad_peptide(pep_phys, max_pep_len)
	pep_esm = self._pad_peptide(pep_esm, max_pep_len)

	device = pep_phys.device
	pep_mask = torch.zeros(1, max_pep_len, dtype=torch.bool, device=device)
	pep_mask[0, :Lp] = True

	pep_feat = self.gate_pep(pep_phys, pep_esm)
	pep_feat = self.add_positional_encoding(pep_feat, self.pep_pos_embed)
	pep_feat = self.pep_encoder(pep_feat, src_key_padding_mask=~pep_mask)

	# 2) hla encoding
	hla_phys = self.proj_hla_phys(hla_phys)
	hla_esm = self.proj_hla_esm(hla_esm)
	hla_se3 = self.se3_model(hla_struct, hla_coord, None)[0]
	hla_se3 = self.proj_hla_se3(hla_se3)
	hla_feat = self.gate_hla(hla_phys, hla_esm, hla_se3)
	hla_feat = self.add_positional_encoding(hla_feat, self.hla_pos_embed)
	hla_feat = self.hla_encoder(hla_feat)

	# --- 3a. Peptide (Q) 查询 HLA (K, V) ---
	pep_feat_cross, _ = self.cross_attn_pep_hla(
	query=pep_feat,
	key=hla_feat,
	value=hla_feat,
	key_padding_mask=None
	)
	pep_feat_updated = self.norm_cross_pep(pep_feat + pep_feat_cross)

	# --- 3b. HLA (Q) 查询 Peptide (K, V) ---
	hla_feat_cross, _ = self.cross_attn_hla_pep(
	query=hla_feat,
	key=pep_feat,
	value=pep_feat,
	key_padding_mask=~pep_mask
	)
	hla_feat_updated = self.norm_cross_hla(hla_feat + hla_feat_cross)

	return pep_feat_updated, hla_feat_updated

	class TCRPeptideHLABindingPredictor(nn.Module):
	def __init__(
	self,
	tcr_dim=256,
	pep_dim=256,
	hla_dim=256,
	bilinear_dim=256,
	loss_fn='bce',
	alpha=0.5,
	gamma=2.0,
	dropout=0.1,
	device='cuda:0',
	pos_weights=None
	):
	super().__init__()

	# TCR α / β position embeddings
	self.max_tcra_len = 500
	self.max_tcrb_len = 500
	self.max_pep_len = 20
	self.max_hla_len = 180
	self.alpha = alpha
	self.gamma = gamma
	self.dropout = dropout

	if loss_fn == 'bce':
	self.loss_fn = nn.BCEWithLogitsLoss(pos_weight=torch.tensor([pos_weights]) if pos_weights is not None else None)
	elif loss_fn == 'focal':
	self.loss_fn = FocalLoss(alpha=alpha, gamma=gamma)
	else:
	raise ValueError(f"Unknown loss function: {loss_fn}")

	self.tcra_pos_embed = nn.Parameter(torch.randn(self.max_tcra_len, tcr_dim))
	self.tcrb_pos_embed = nn.Parameter(torch.randn(self.max_tcrb_len, tcr_dim))
	self.pep_pos_embed = nn.Parameter(torch.randn(self.max_pep_len, pep_dim))
	self.hla_pos_embed = nn.Parameter(torch.randn(self.max_hla_len, hla_dim))

	self.device = device
	self.tcr_dim = tcr_dim
	self.pep_dim = pep_dim
	self.hla_dim = hla_dim
	self.bilinear_dim = bilinear_dim

	d_model = tcr_dim
	n_heads = 8

	self.cross_attn_tcra_pep = nn.MultiheadAttention(d_model, n_heads, dropout=self.dropout, batch_first=True)
	self.cross_attn_tcra_hla = nn.MultiheadAttention(d_model, n_heads, dropout=self.dropout, batch_first=True)
	self.cross_attn_tcrb_pep = nn.MultiheadAttention(d_model, n_heads, dropout=self.dropout, batch_first=True)
	self.cross_attn_tcrb_hla = nn.MultiheadAttention(d_model, n_heads, dropout=self.dropout, batch_first=True)
	self.norm_tcra_pep = nn.LayerNorm(d_model)
	self.norm_tcra_hla = nn.LayerNorm(d_model)
	self.norm_tcrb_pep = nn.LayerNorm(d_model)
	self.norm_tcrb_hla = nn.LayerNorm(d_model)

	# =======================
	# TCRα / TCRβ encoders
	# =======================
	def make_tcr_encoder():
	proj_phys = ResidueProjector(20, tcr_dim)
	proj_esm = ResidueProjector(1280, tcr_dim)
	proj_struct = ResidueProjector(17, tcr_dim)
	se3 = StackedEGNN(dim=17, layers=1)
	gate = ResidueTripleFusion(tcr_dim)
	encoder_layer = TransformerEncoderLayer(
	d_model=tcr_dim, nhead=8, dim_feedforward=tcr_dim*4, dropout=self.dropout, batch_first=True
	)
	encoder = TransformerEncoder(encoder_layer, num_layers=2)
	return nn.ModuleDict(dict(
	proj_phys=proj_phys, proj_esm=proj_esm, proj_struct=proj_struct,
	se3=se3, gate=gate, encoder=encoder
	))

	self.tcra_enc = make_tcr_encoder()
	self.tcrb_enc = make_tcr_encoder()

	# =======================
	# Peptide encoder (phys + esm + structure)
	# =======================
	self.proj_pep_phys = ResidueProjector(20, pep_dim)
	self.proj_pep_esm = ResidueProjector(1280, pep_dim)
	self.proj_pep_struct = ResidueProjector(17, pep_dim)
	self.pep_se3 = StackedEGNN(dim=17, layers=1)
	self.pep_gate = ResidueTripleFusion(pep_dim)
	pep_encoder_layer = TransformerEncoderLayer(
	d_model=pep_dim, nhead=8, dim_feedforward=pep_dim*4, dropout=self.dropout, batch_first=True
	)
	self.pep_encoder = TransformerEncoder(pep_encoder_layer, num_layers=2)

	# =======================
	# HLA encoder
	# =======================
	self.proj_hla_phys = ResidueProjector(20, hla_dim)
	self.proj_hla_esm = ResidueProjector(1280, hla_dim)
	self.proj_hla_struct = ResidueProjector(17, hla_dim)
	self.hla_se3 = StackedEGNN(dim=17, layers=1)
	self.hla_gate = ResidueTripleFusion(hla_dim)
	hla_encoder_layer = TransformerEncoderLayer(
	d_model=hla_dim, nhead=8, dim_feedforward=hla_dim*4, dropout=self.dropout, batch_first=True
	)
	self.hla_encoder = TransformerEncoder(hla_encoder_layer, num_layers=1)

	self.pep_gate_2 = ResidueDoubleFusion(pep_dim)
	self.hla_gate_2 = ResidueDoubleFusion(hla_dim)

	# =======================
	# Bilinear interactions
	# =======================
	self.bi_tcra_pep = BANLayer(tcr_dim, pep_dim, bilinear_dim, h_out=4, k=3)
	self.bi_tcrb_pep = BANLayer(tcr_dim, pep_dim, bilinear_dim, h_out=4, k=3)
	self.bi_tcra_hla = BANLayer(tcr_dim, hla_dim, bilinear_dim, h_out=4, k=3)
	self.bi_tcrb_hla = BANLayer(tcr_dim, hla_dim, bilinear_dim, h_out=4, k=3)

	# =======================
	# Head
	# =======================
	total_fused_dim = bilinear_dim * 4
	self.head = nn.Sequential(
	nn.Linear(total_fused_dim, bilinear_dim),
	nn.ReLU(),
	nn.Linear(bilinear_dim, 1)
	)

	def encode_tcr(self, x_phys, x_esm, x_struct, x_coord, x_mask, enc, pos_embed):
	phys = enc['proj_phys'](x_phys)
	esm = enc['proj_esm'](x_esm)
	se3 = enc['se3'](x_struct, x_coord, None)[0]
	se3 = enc['proj_struct'](se3)
	feat = enc['gate'](phys, esm, se3)
	feat = self.add_positional_encoding(feat, pos_embed)
	feat = enc['encoder'](feat, src_key_padding_mask=~x_mask)
	return feat

	def add_positional_encoding(self, x, pos_embed):
	"""
	x: [B, L, D]
	pos_embed: [L_max, D]
	"""
	B, L, D = x.shape
	pe = pos_embed[:L, :].unsqueeze(0).expand(B, -1, -1)
	return x + pe

	# def _extract_cdr3_segment(self, tcr_feat, cdr3_start, cdr3_end):
	# B, L, D = tcr_feat.shape
	# device = tcr_feat.device

	# max_len = (cdr3_end - cdr3_start + 1).max().item()

	# # [max_len], 0..max_len-1
	# rel_idx = torch.arange(max_len, device=device).unsqueeze(0).expand(B, -1) # [B, max_len]
	# # absolute index = start + rel_idx
	# abs_idx = cdr3_start.unsqueeze(1) + rel_idx
	# # clamp end
	# abs_idx = abs_idx.clamp(0, L-1)

	# # mask positions beyond end
	# mask = rel_idx <= (cdr3_end - cdr3_start).unsqueeze(1)

	# # gather
	# # expand abs_idx to [B, max_len, D] for gather
	# gather_idx = abs_idx.unsqueeze(-1).expand(-1, -1, D)
	# out = torch.gather(tcr_feat, 1, gather_idx) # [B, max_len, D]

	# return out, mask

	def _extract_cdr3_segment(self, tcr_feat, cdr3_start, cdr3_end):
	"""
	Extracts CDR3 embeddings and corresponding mask.
	tcr_feat: [B, L, D]
	cdr3_start, cdr3_end: [B]
	Returns:
	out: [B, max_len, D]
	mask: [B, max_len] (True = valid)
	"""
	B, L, D = tcr_feat.shape
	device = tcr_feat.device

	# 每个样本的 cdr3 长度
	lens = (cdr3_end - cdr3_start).clamp(min=0)
	max_len = lens.max().item()

	rel_idx = torch.arange(max_len, device=device).unsqueeze(0).expand(B, -1) # [B, max_len]
	abs_idx = cdr3_start.unsqueeze(1) + rel_idx # [B, max_len]

	# mask: True 表示有效
	mask = rel_idx < lens.unsqueeze(1) # 注意这里 "<" 就够了

	# 将超出范围的索引设为 0（任意有效索引都行，因为会被mask掉）
	abs_idx = torch.where(mask, abs_idx, torch.zeros_like(abs_idx))

	# gather
	gather_idx = abs_idx.unsqueeze(-1).expand(-1, -1, D)
	out = torch.gather(tcr_feat, 1, gather_idx)

	# 对 mask 为 False 的位置强制置零，避免无效 token 参与计算
	out = out * mask.unsqueeze(-1)

	return out, mask

	def forward(self, batch):
	# TCRα / TCRβ
	tcra_feat = self.encode_tcr(
	batch['tcra_phys'].to(self.device, non_blocking=True),
	batch['tcra_esm'].to(self.device, non_blocking=True),
	batch['tcra_struct'].to(self.device, non_blocking=True),
	batch['tcra_coord'].to(self.device, non_blocking=True),
	batch['tcra_mask'].to(self.device, non_blocking=True),
	self.tcra_enc,
	self.tcra_pos_embed
	)
	tcrb_feat = self.encode_tcr(
	batch['tcrb_phys'].to(self.device, non_blocking=True),
	batch['tcrb_esm'].to(self.device, non_blocking=True),
	batch['tcrb_struct'].to(self.device, non_blocking=True),
	batch['tcrb_coord'].to(self.device, non_blocking=True),
	batch['tcrb_mask'].to(self.device, non_blocking=True),
	self.tcrb_enc,
	self.tcrb_pos_embed
	)
	# peptide
	pep_phys = self.proj_pep_phys(batch['pep_phys'].to(self.device, non_blocking=True))
	pep_esm = self.proj_pep_esm(batch['pep_esm'].to(self.device, non_blocking=True))
	pep_se3 = self.pep_se3(batch['pep_struct'].to(self.device, non_blocking=True), batch['pep_coord'].to(self.device, non_blocking=True), None)[0]
	pep_se3 = self.proj_pep_struct(pep_se3)
	pep_feat = self.pep_gate(pep_phys, pep_esm, pep_se3)
	pep_feat = self.add_positional_encoding(pep_feat, self.pep_pos_embed)
	pep_feat = self.pep_encoder(
	pep_feat,
	src_key_padding_mask=~batch['pep_mask'].to(self.device)
	)
	# hla
	hla_phys = self.proj_hla_phys(batch['hla_phys'].to(self.device, non_blocking=True))
	hla_esm = self.proj_hla_esm(batch['hla_esm'].to(self.device, non_blocking=True))
	hla_se3 = self.hla_se3(batch['hla_struct'].to(self.device, non_blocking=True), batch['hla_coord'].to(self.device, non_blocking=True), None)[0]
	hla_se3 = self.proj_hla_struct(hla_se3)
	hla_feat = self.hla_gate(hla_phys, hla_esm, hla_se3)
	hla_feat = self.add_positional_encoding(hla_feat, self.hla_pos_embed)
	hla_feat = self.hla_encoder(hla_feat)

	if ('pep_feat_pretrain' in batch) and ('hla_feat_pretrain' in batch):
	pep_pretrain = batch['pep_feat_pretrain'].to(self.device, non_blocking=True)
	hla_pretrain = batch['hla_feat_pretrain'].to(self.device, non_blocking=True)

	# ---- 鲁棒的长度对齐 (裁剪到最小长度) ----
	Lp = pep_feat.shape[1]
	Lp_pretrain = pep_pretrain.shape[1]
	if Lp != Lp_pretrain:
	Lp_min = min(Lp, Lp_pretrain)
	pep_feat = pep_feat[:, :Lp_min, :]
	pep_pretrain = pep_pretrain[:, :Lp_min, :]

	Lh = hla_feat.shape[1]
	Lh_pretrain = hla_pretrain.shape[1]
	if Lh != Lh_pretrain:
	Lh_min = min(Lh, Lh_pretrain)
	hla_feat = hla_feat[:, :Lh_min, :]
	hla_pretrain = hla_pretrain[:, :Lh_min, :]

	# ---- Peptide gating ----
	pep_feat = self.pep_gate_2(pep_feat, pep_pretrain)
	# ---- HLA gating ----
	hla_feat = self.hla_gate_2(hla_feat, hla_pretrain)

	# TCRα CDR3 segment
	tcra_cdr3, cdr3a_mask = self._extract_cdr3_segment(
	tcra_feat,
	batch['cdr3a_start'].to(self.device, non_blocking=True),
	batch['cdr3a_end'].to(self.device, non_blocking=True)
	)

	# TCRβ CDR3 segment
	tcrb_cdr3, cdr3b_mask = self._extract_cdr3_segment(
	tcrb_feat,
	batch['cdr3b_start'].to(self.device, non_blocking=True),
	batch['cdr3b_end'].to(self.device, non_blocking=True)
	)

	# TCRα CDR3 ← Peptide
	tcra_cdr3_cross, _ = self.cross_attn_tcra_pep(
	query=tcra_cdr3, # [B, La_cdr3, D]
	key=pep_feat, value=pep_feat, # [B, Lp, D]
	key_padding_mask=~batch['pep_mask'].to(self.device)
	)
	tcra_cdr3 = self.norm_tcra_pep(tcra_cdr3 + tcra_cdr3_cross)
	# 重新掩蔽 padding 的 CDR3 位置，防止无效 token 漏光
	tcra_cdr3 = tcra_cdr3 * cdr3a_mask.unsqueeze(-1)

	# TCRβ CDR3 ← Peptide
	tcrb_cdr3_cross, _ = self.cross_attn_tcrb_pep(
	query=tcrb_cdr3,
	key=pep_feat, value=pep_feat,
	key_padding_mask=~batch['pep_mask'].to(self.device)
	)
	tcrb_cdr3 = self.norm_tcrb_pep(tcrb_cdr3 + tcrb_cdr3_cross)
	tcrb_cdr3 = tcrb_cdr3 * cdr3b_mask.unsqueeze(-1)

	# ------------------ Cross-Attn：TCR 全序列 ↔ HLA（整条 TCR） ------------------
	# TCRα full ← HLA
	tcra_hla_cross, _ = self.cross_attn_tcra_hla(
	query=tcra_feat, # [B, La, D]
	key=hla_feat, value=hla_feat, # [B, Lh, D]
	key_padding_mask=None
	)
	tcra_feat = self.norm_tcra_hla(tcra_feat + tcra_hla_cross)
	tcra_feat = tcra_feat * batch['tcra_mask'].to(self.device).unsqueeze(-1)

	# TCRβ full ← HLA
	tcrb_hla_cross, _ = self.cross_attn_tcrb_hla(
	query=tcrb_feat,
	key=hla_feat, value=hla_feat,
	key_padding_mask=None
	)
	tcrb_feat = self.norm_tcrb_hla(tcrb_feat + tcrb_hla_cross)
	tcrb_feat = tcrb_feat * batch['tcrb_mask'].to(self.device).unsqueeze(-1)

	# bilinear fusion
	vec_tcra_pep, attn_tcra_pep = self.bi_tcra_pep(tcra_cdr3, pep_feat, v_mask=cdr3a_mask, q_mask=batch['pep_mask'].to(self.device))
	vec_tcrb_pep, attn_tcrb_pep = self.bi_tcrb_pep(tcrb_cdr3, pep_feat, v_mask=cdr3b_mask, q_mask=batch['pep_mask'].to(self.device))
	vec_tcra_hla, attn_tcra_hla = self.bi_tcra_hla(tcra_feat, hla_feat, v_mask=batch['tcra_mask'].to(self.device), q_mask=None)
	vec_tcrb_hla, attn_tcrb_hla = self.bi_tcrb_hla(tcrb_feat, hla_feat, v_mask=batch['tcrb_mask'].to(self.device), q_mask=None)

	attn_tcra_pep_small = attn_tcra_pep.sum(dim=1).float()
	attn_tcrb_pep_small = attn_tcrb_pep.sum(dim=1).float()
	attn_tcra_hla_small = attn_tcra_hla.sum(dim=1).float()
	attn_tcrb_hla_small = attn_tcrb_hla.sum(dim=1).float()

	attn_dict = {
	'attn_tcra_pep': attn_tcra_pep_small.detach().cpu().numpy(),
	'attn_tcrb_pep': attn_tcrb_pep_small.detach().cpu().numpy(),
	'attn_tcra_hla': attn_tcra_hla_small.detach().cpu().numpy(),
	'attn_tcrb_hla': attn_tcrb_hla_small.detach().cpu().numpy()
	}

	fused = torch.cat([vec_tcra_pep, vec_tcrb_pep, vec_tcra_hla, vec_tcrb_hla], dim=-1)
	logits = self.head(fused).squeeze(-1)

	labels = batch['label'].to(self.device)
	loss_binding = self.loss_fn(logits, labels.float())

	probs = torch.sigmoid(logits)

	return probs, loss_binding, pep_feat.detach().cpu().numpy(), attn_dict