Streaming Token Generation

Melange streams generated tokens incrementally, so you can render output while the model is still decoding.

How Streaming Works

Call run(prompt) to start the generation context.
Call waitForNextToken() in a loop to receive tokens one at a time.
Stop when generation completes.

Basic Streaming

val model = ZeticMLangeLLMModel(context, PERSONAL_KEY, MODEL_NAME)

model.run(userPrompt)

val sb = StringBuilder()
while (true) {
    val result = model.waitForNextToken()
    if (result.generatedTokens == 0) break
    if (result.token.isNotEmpty()) sb.append(result.token)
}

val output = sb.toString()

let model = try ZeticMLangeLLMModel(personalKey: PERSONAL_KEY, name: MODEL_NAME)

try model.run(userPrompt)

var buffer = ""
while true {
    let result = model.waitForNextToken()
    if result.generatedTokens == 0 { break }
    buffer.append(result.token)
}

let output = buffer

final model = await ZeticMLangeLLMModel.create(
  personalKey: personalKey,
  name: modelName,
);

model.run(userPrompt);

final buffer = StringBuffer();
while (true) {
  final result = model.waitForNextToken();
  if (result.isFinished) {
    break;
  }
  buffer.write(result.token);
}

final output = buffer.toString();

Streaming to the UI

For a chat UI, update the screen every time a new token arrives.

lifecycleScope.launch(Dispatchers.IO) {
    val model = ZeticMLangeLLMModel(context, PERSONAL_KEY, MODEL_NAME)
    model.run(userPrompt)

    while (true) {
        val result = model.waitForNextToken()
        if (result.generatedTokens == 0) break

        withContext(Dispatchers.Main) {
            textView.append(result.token)
        }
    }
}

Task.detached {
    do {
        let model = try ZeticMLangeLLMModel(personalKey: PERSONAL_KEY, name: MODEL_NAME)
        try model.run(userPrompt)

        while true {
            let result = model.waitForNextToken()
            if result.generatedTokens == 0 { break }

            await MainActor.run {
                self.textView.text?.append(result.token)
            }
        }
    } catch {
        print("LLM error: \(error)")
    }
}

Future<void> streamAnswer() async {
  final model = await ZeticMLangeLLMModel.create(
    personalKey: personalKey,
    name: modelName,
  );

  model.run(userPrompt);

  while (true) {
    final result = model.waitForNextToken();
    if (result.isFinished) {
      break;
    }

    setState(() {
      generatedText += result.token;
    });

    await Future<void>.delayed(Duration.zero);
  }
}

waitForNextToken() is blocking. For high-frequency UI updates or long generations, run token polling from a worker isolate or yield back to the event loop between updates.

Conversation Reset

If you want a fresh conversation, call cleanUp().

model.cleanUp()
model.run("Start a new conversation")

try model.cleanUp()
try model.run("Start a new conversation")

model.cleanUp();
model.run('Start a new conversation');

Keeping Context Between Turns

Use LLMInitOption.kvCacheCleanupPolicy to control what happens when the KV cache fills up.

CLEAN_UP_ON_FULL: Clears the conversation context automatically.
DO_NOT_CLEAN_UP: Keeps the existing context. You must manually call cleanUp() before starting a new conversation.

When you use DO_NOT_CLEAN_UP, do not call run() again for a new conversation until you have called cleanUp().

Releasing the Model

When the model instance is no longer needed:

model.deinit()

model.forceDeinit()

model.close();

Next Steps

LLM Inference Modes: Speed vs. accuracy configuration
LLM Inference Overview: Automatic vs explicit initialization
ZeticMLangeLLMModel (Android): Android API reference
ZeticMLangeLLMModel (iOS): iOS API reference
ZeticMLangeLLMModel (Flutter): Flutter API reference