jailbreaking

Star

Here are 23 public repositories matching this topic...

tml-epfl / llm-past-tense

Star

Does Refusal Training in LLMs Generalize to the Past Tense? [ICLR 2025]

jailbreaking robustness generalization llms

Updated Jan 23, 2025
Python

doronz88 / pylera1n

Sponsor

Star

Python adaptation for pelara1n

python cli ios jailbreak iphone python3 jailbreaking

Updated Dec 25, 2022
Python

amazon-science / TurboFuzzLLM

Star

TurboFuzzLLM: Turbocharging Mutation-based Fuzzing for Effectively Jailbreaking Large Language Models in Practice

jailbreaking ai-safety red-teaming guardrails responsible-ai large-language-models

Updated Nov 24, 2025
Python

HOLYKEYZ / ModelFang

Star

AI red teaming, jailbreaking, and all forms of adversarial attacks for security purposes

jailbreaking llm-security ai-red-teaming

Updated May 22, 2026
Python

arunsanna / AgentDefense-Bench

Star

A comprehensive security benchmark for evaluating infrastructure-layer defenses in MCP-based AI agent systems

benchmark mcp dataset jailbreaking ai-security llm prompt-injection

Updated Apr 18, 2026
Python

openguardrails / openguardrails-python

Star

The official Python library for the OpenGuardrails API

jailbreaking pii guardrails prompt-injection llm-security data-leakage-prevention llm-safety openguardrails

Updated Oct 20, 2025
Python

dmis-lab / ASGuard

Star

[ICLR 2026] ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack

guard safety jailbreaking iclr interpretability activation-steering iclr2026

Updated Sep 30, 2025
Python

Pro-GenAI / Smart-Prompt-Eval

Star

🧪 Evaluating LLM Robustness with Manipulated Prompts

python ai python3 jailbreaking large-language-models prompt-engineering llms prompt-injection gen-ai genai llm-security llm-evaluation genai-evaluation prompt-attacks

Updated Sep 26, 2025
Python

alexey-tyurin / a2a-double-validation

Star

Multi-agent system for query processing with safety verification and critique built with Google A2A protocol, Google ADK, Llama Prompt Guard 2, Gemma 3 and Gemini 2.0 Flash.

agent ai google-cloud gemini llama jailbreaking adk googlecloudplatform google-cloud-run vertex-ai llm aisecurity genai gemma3 agentdevelopmentkit

Updated Jun 1, 2025
Python

emmanuelgjr / GenAI-Security-Literature-Review

Star

Comprehensive, auto-updating literature review of GenAI & LLM security research, standards, tools, and resources. 100+ curated entries with interactive webapp.

owasp cybersecurity jailbreaking ai-safety literature-review red-teaming machine-learning-security ai-security adversarial-ml mitre-atlas prompt-injection llm-security genai-security agentic-ai nist-ai-rmf

Updated May 25, 2026
Python

chasingimpact / cwmap

Star

Context Window Security Scanner — automated red-teaming and jailbreak probing for LLMs. The SQLmap of context windows.

ai pentesting jailbreaking context-window-scanner

Updated Feb 22, 2026
Python

mohdUwaish59 / Agent-Jailbreaking-Agents

Star

python nlp benchmark sqlalchemy persuasion jailbreaking multi-agent-systems ai-safety ai-agents conversational-ai adversarial-attacks fastapi large-language-models llm-safety

Updated Sep 27, 2025
Python

sen0rxol0 / ipwndfu

Star

open-source jailbreaking tool for many iOS devices

ios jailbreaking

Updated Jul 2, 2023
Python

chuongnt9 / jailbreaking-llm-vietnamese

Star

Jailbreaking Large Language Models for Vietnamese language

vietnamese jailbreaking large-language-models

Updated Jun 6, 2025
Python

g4m817 / llm-attention-head-instability

Star

A hobbyist proof-of-concept exploring attention inter-head instability.

security machine-learning jailbreaking interpretability llm prompt-injection

Updated Sep 14, 2025
Python

ppradyoth / credential-guard-tracker

Star

Automated daily ecosystem tracking for credential-guard plugin and security initiatives in AI Agents

jailbreaking ai-safety red-teaming ai-security mlsecops prompt-injection

Updated May 25, 2026
Python

ppradyoth / weighted-safety-refusal

Star

Severity-weighted LLM safety evaluation suite. Measures absolute refusal robustness across prompt injection, jailbreaking, data exfiltration, toxicity, and malware generation — with risk-adjusted category weights and a custom model-graded scorer.

jailbreaking ai-safety red-teaming ai-security mlsecops prompt-injection

Updated May 23, 2026
Python

ppradyoth / inspect_evals

Star

Collection of evals for Inspect AI

jailbreaking ai-safety red-teaming ai-security mlsecops prompt-injection

Updated May 23, 2026
Python

ppradyoth / ai-security-tracker

Star

🔒 Real-time security monitoring across 50+ AI/ML repositories. Track vulnerabilities, CVEs, and security initiatives using TinyLlama AI classification. Big Model Radar format reports.

open-source security cve jailbreaking ai-safety security-dashboard vulnerability-scanner red-teaming ai-security security-analytics ai-ml vulnerability-tracking github-monitoring mlsecops prompt-injection llm-security threat-tracking ecosystem-tracking

Updated May 25, 2026
Python

leeyejin1231 / DLM_Steering_Remasking

Star

nlp dlm jailbreaking dllm

Updated May 15, 2026
Python

Improve this page

Add a description, image, and links to the jailbreaking topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the jailbreaking topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

jailbreaking

Here are 23 public repositories matching this topic...

tml-epfl / llm-past-tense

doronz88 / pylera1n

amazon-science / TurboFuzzLLM

HOLYKEYZ / ModelFang

arunsanna / AgentDefense-Bench

openguardrails / openguardrails-python

dmis-lab / ASGuard

Pro-GenAI / Smart-Prompt-Eval

alexey-tyurin / a2a-double-validation

emmanuelgjr / GenAI-Security-Literature-Review

chasingimpact / cwmap

mohdUwaish59 / Agent-Jailbreaking-Agents

sen0rxol0 / ipwndfu

chuongnt9 / jailbreaking-llm-vietnamese

g4m817 / llm-attention-head-instability

ppradyoth / credential-guard-tracker

ppradyoth / weighted-safety-refusal

ppradyoth / inspect_evals

ppradyoth / ai-security-tracker

leeyejin1231 / DLM_Steering_Remasking

Improve this page

Add this topic to your repo