본 연구는 프로토콜 구현 시 자연어로 지정된 특정 구조와 순서를 준수해야 하는데, 기존 프로토콜 퍼징에서 기계가 판독할 수 있는 버전이 없으면 필요한 구조와 순서를 따르는 구현에 유효한 테스트 입력을 자동으로 생성할 수 없다는 한계에 주목하였다. 따라서 본 연구에서는 프로토콜 퍼징 중 사용할 수 있는 프로토콜에 대한 기계 판독 가능한 정보를 도출하기 위해 사람이 읽을 수 있는 수백만 페이지의 프로토콜 사양을 수집한 사전 훈련된 대규모 언어 모델 기반의 프로토콜 구현 퍼저인 CHATAFL을 제안하였다.
잘 알려진 프로토콜에 대한 프로토콜 메시지 유형에 대해 LLM 모델의 지식을 활용하여 메시지 시퀀스 생성, 응답 코드 예측하여 상태 저장 프로토콜을 구현의 상태 감지하는 LLM 기능을 관찰하였으며, 본 연구에서는 이를 토대로 프로토콜 구현 퍼저를 개발하였다. CHATAFL은 LLM을 사용하여 구조 인식 변형(structure-aware mutation)에 사용되는 프로토콜에 대해 메시지 유형에 대한 기계 판독 가능한 문법(machine-readable grammar)을 구성한다. 이후 퍼저는 LLM을 사용하여 초기 시드로 사용되는 메시지 시퀀스에서 메시지 변경 및 메시지 시퀀스의 다음 메시지를 예측함으로써 메시지의 다양성을 높인다. 마지막으로, 퍼저는 LLM을 사용하여 커버리지 정체기에서 벗어나 새로운 상태에 도달하기 위해 메시지를 생성하라는 메시지가 표시되는 LLM을 사용한다.
PROFUZZBENCH 벤치마크 내 실제 프로토콜를 대상으로 실험한 결과, 상태 및 코드 커버리지 측면에서 효과가 있었다. 특히, AFLNET, NSFUZZ와 비교하였을 때 CHATAFL은 두 퍼저보다 47.60%, 42.69% 더 많은 상태를 전환하고, 29.55%와 25.75% 더 많은 상태, 그리고 5.81%와 6.74% 더 많은 코드를 커버하였다. CHATAFL은 널리 사용된 프로토콜 구현에서 제로데이 취약점 9개를 발견하였다.