1,5-bits LLM på iPhone: Hvorfor Apples 'maskinvareavgift' er en inntektsport, ikke en ingeniørmessig hindring
Dommen: En 7 milliarder parametre stor LLM, krympet til 1,58 bits per vekt, får fint plass i 1,2 GB RAM. En iPhone 12 har 4 GB. Flaskehalsen Apple påstår — “Apple Intelligence krever A17 Pro eller nyere” — er ingeniørmessig tull i 2026.
Tallene: BitNet b1.58-artikkelen (Microsoft Research, 2024) → LLaMA-skala ytelse til 1/8 av modellstørrelsen. Recover-LoRA (juni 2026) → 2-bit kvantisering gjenoppretter full nøyaktighet via lav-rang finjustering. Hybrid Gated Flow (feb 2026) → identifiserer “Memory Wall” som den faktiske begrensningen, ikke regnekraft.
Apples trekk: Blokker Apple Intelligence på iPhone 15 og eldre. Tving 250 millioner+ brukere til å oppgradere for å få tilgang til den innebygde Siri-opplevelsen.
Status: Maskinvareporten er en inntektsport. Ingeniørkunsten er klar. Distribusjonen er ikke det.
Den 30-sekunders versjonen: hva er en “1,5-bits” LLM? #
Når en LLM kjører på telefonen din, er hver “vekt” — hver forbindelse i det nevrale nettverket — normalt et tall som tar 16 bits (2 bytes) minne. En 7 milliarder parameter modell, i størrelsen til Metas LLaMA 2 7B, spiser omtrent 14 GB ved 16-bit presisjon. Det er derfor sky-AI er sky-AI: ingen telefon har 14 GB ledig til en enkelt modell.
Kvantisering krymper hver vekt til færre bits. Å gå fra 16-bit til 8-bit halverer minnet (7 GB). 4-bit halverer igjen (3,5 GB). 2-bit bringer det til 1,75 GB. 1,58-bit, BitNet b1.58-designet fra Microsoft Research [The Era of 1-bit LLMs], er den mest aggressive: hver vekt er en av tre verdier — minus én, null, eller pluss én. Hver vekt tar omtrent 1,58 bits. En 7B-modell blir til 1,2 GB.
Det tallet på 1,2 GB er hele historien. En iPhone 12, utgitt i 2020, har 4 GB RAM. Apples iPhone 13, 14 og 15 har 4–8 GB. Ingen av disse telefonene er beregningsmessig sultne på en 1,2 GB modell. Minnet er greit. Regnekraften er greit. Neural Engine har ikke blitt dramatisk bedre mellom A14 og A17 for denne arbeidsmengden — den har blitt inkrementelt raskere, ikke kategorisk kapabel.
Hva forskningen sier — i enkle ord #
Tre artikler publisert i 2026 etablerer at 1,5-bit ikke lenger er eksperimentelt.
[Hybrid Gated Flow] (feb 2026) er den klareste beskrivelsen av den ingeniørmessige virkeligheten: “Distribusjon av store språkmodeller (LLM-er) på edge-enheter er fundamentalt begrenset av ‘Memory Wall’ — en maskinvarebegrensning der minnebåndbredde, ikke regnekraft, blir flaskehalsen.” Artikkelen viser deretter hvordan man kan distribuere 1,58-bit LLM-er på edge-maskinvare med selektiv lav-rang korrigering. Det fungerer.
[Recover-LoRA] (juni 2026) adresserer den historiske bekymringen: når du krymper en modell så aggressivt, mister den nøyaktighet. Artikkelen viser at 2-bit kvantisering, kombinert med en liten LoRA-finjustering etter komprimeringen, gjenoppretter full nøyaktighet. Arbeidsflyten er: ta hvilken som helst 7B-modell → kvantiser til 2-bit → finjuster en liten LoRA-adapter → distribuer. Nøyaktighetsproblemet er løst.
[Sparse-BitNet] (mars 2026) viser at 1,58-bit modeller og sparsitet kan kombineres — du kan beskjære 2 av hver 4 vekter til null, og 1,58-bit-formatet komprimerer modellen enda mer uten retrening. En 7B Sparse-BitNet-modell får plass i omtrent 600 MB.
[BitNet Distillation] (okt 2025) gir produksjonslinjen: et “lettvektig” verktøy som konverterer modeller med full presisjon, som Qwen, til 1,58-bit-form. Apple bruker allerede Qwen og Apple Foundation Model internt. De kunne kjørt denne konverteringen i dag.
Utenfor den akademiske verden viser [Litespark] (mai 2026) at ternære nevrale nettverk kan kjøre på forbruker-CPU-er via egne SIMD-kjerner. [PD-Swap] (des 2025) viser 1,58-bit Transformere som kjører på edge-FPGA-er — brikker med langt mindre regnekraft enn en iPhone Neural Engine. Hvis en $20 FPGA kan gjøre det, kan en iPhone 12 gjøre det.
Maskinvareporten, i tall #
| Enhet | Brikke | RAM | Neural Engine TOPS | År | Apple Intelligence? |
|---|---|---|---|---|---|
| iPhone 11 | A13 | 4 GB | 6 TOPS | 2019 | Nei (droppet i iOS 18) |
| iPhone 12 | A14 | 4 GB | 11 TOPS | 2020 | Nei |
| iPhone 13 | A15 | 4 GB | 15,8 TOPS | 2021 | Nei |
| iPhone 14 | A16 | 6 GB | 17 TOPS | 2022 | Nei |
| iPhone 15 | A16 | 6 GB | 17 TOPS | 2023 | Nei |
| iPhone 15 Pro | A17 Pro | 8 GB | 35 TOPS | 2023 | Ja |
| iPhone 16 | A18 | 8 GB | 35 TOPS | 2024 | Ja |
| iPhone 16 Pro | A18 Pro | 8 GB | 35 TOPS | 2024 | Ja |
| iPhone 17 (rykte) | A19 | 8–12 GB | ~45 TOPS | 2025 | Ja |
Grensen trekkes ved A17 Pro. Det 2× spranget i TOPS fra A16 (17) til A17 Pro (35) er reelt, men ikke kategorisk. Begge kan kjøre en 1,2 GB modell. 8 GB RAM mot 6 GB betyr noe for KV-cache under lang kontekst, men BitNet Sparse-varianten (600 MB) etterlater 5+ GB ledig plass på en 6 GB iPhone 14.
Hvorfor Apple gjør dette likevel #
Tre grunner, rangert etter bedriftens vekt:
Inntekter. Omtrent 250 millioner iaktive iPhones er A16 eller eldre, basert på Apples kunngjøringer om installert base og analytikere sine estimater for 2025–2026-syklusen. Hvis bare 10 % av disse brukerne oppgraderer for å få tilgang til Apple Intelligence — en funksjon de har hørt om i to år — er det 25 millioner enheter til en gjennomsnittlig salgspris på $900 (~10 800 NOK), eller $22 milliarder i maskinvareinntekter. iOS 27s enhetskompatibilitet er en $22 milliarder pull-forward-vekt, skjult inni en programvareoppdatering.
Økosystem-låsing. Apple Intelligence integreres med Bilder, Mail, Meldinger, Notater og Siri. Når du først har det på iPhone 15 Pro, kjøper du en Mac med Apple Silicon for å fortsette opplevelsen, AirPods som parer sømløst, og en Apple TV som kjører det samme intelligenslaget. Maskinvareporten fungerer også som en akselerator for låsing: brukere som hopper over den, blir låst ute fra AI-fasen av Apples økosystem de neste 4–5 årene.
Kontroll over AI-narrativet. Apple ønsker ikke at brukere skal kjøre åpen kildekode som 1,58-bit Qwen eller LLaMA lokalt — det konkurrerer med Apple Intelligence, som Apple selger (til slutt) som et betalt abonnementstjeneste. Maskinvareporten holder “AI på iPhone”-opplevelsen Apple-merket og Apple-kontrollert. Dette er en del av den samme Apple AI Safety walled-garden-logikken — jo tettere porten er, desto færre alternative AI-overflater har Apple å forsvare seg mot.
Hva “Memory Wall” egentlig betyr #
HGF-artikkelens rammeverk er viktig her. “Memory Wall” er gapet mellom hvor raskt CPU-er kan regne og hvor raskt minnet kan mate dem med data. For en 16-bit LLM er dette gapet enormt: modellen er for stor til å mate brikken raskt nok. For en 1,58-bit modell kollapser gapet: 1,2 GB får plass i LPDDR5-båndbredden, Neural Engine kan mate seg selv, og flaskehalsen blir token-genereringslatens, ikke minne.
A14s Neural Engine kan kjøre en 1,58-bit modell. A13, brikken i iPhone 11, kan kjøre den saktere, men kan fortsatt kjøre den. Minnebåndbredde, ikke regnekraft TOPS, er det som BitNet-familien låser opp. Og iPhone 12 og nyere har minnebåndbredden.
Den ingeniørmessige veien Apple kunne levert i dag #
| Steg | Hva | Hvorfor |
|---|---|---|
| 1 | Ta Apple Foundation Model (3B parametre) | Allerede trent, allerede optimalisert for Apple-maskinvare |
| 2 | BitDistill til 1,58-bit presisjon | ~600 MB modellstørrelse, får plass i 4 GB RAM med rom for KV-cache |
| 3 | Legg til Sparse-BitNet-beskjæring | Faller til 300 MB, får plass selv på en 3 GB iPhone 11 |
| 4 | Recover-LoRA finjustering på Apple Intelligence-oppgaver | Gjenoppretter eventuell kvalitetstap fra kvantisering |
| 5 | Ship som iOS 26.5-oppdatering for iPhone 12+ | Back-port i stedet for å fremtidssikre med porter |
Dette er et 4-måneders ingeniørprosjekt. Apple har forskerne (Apple Foundation Model-teamet har publisert arbeid om on-device inferens), maskinvaren (hver iPhone 12 og nyere), og programvarestakken (Core ML støtter allerede 1-bit og 2-bit kvantiserte modeller via mlpackage). Årsaken til at det ikke skjer, er ikke teknisk. Den er kommersiell — og Apples dypere partnerskap med Anthropic på Project Glasswing og Mythos cybersecurity viser hvor AI-regnekraft som ikke er på enheten, er ment å flyte.
Hva dette betyr for iOS 27-syklusen #
iOS 27s enhetskompatibilitet vil bli presentert som et maskinvarekrav. Keynoteen vil si at Apple Intelligence “trenger Neural Engine i A17 Pro” eller lignende. Keynoteen vil teknisk sett være forsvarlig kun for de tyngste Apple Intelligence-funksjonene — on-device bildegenerering, komplekse multi-step agentiske arbeidsflyter, og on-device oversettelse mellom språk med veldig forskjellige skripter.
For den generelle Apple Intelligence — delene som oppsummerer Mail, skriver utkast til svar i Meldinger, genererer Genmoji, prioriterer Varslinger, den omskrevne Siri — er maskinvareporten ikke nødvendig. 1,5-bit / 2-bit / Sparse-BitNet-forskningen beviser det. Apples valg om å portforbedre disse funksjonene er en forretningsbeslutning, ikke en ingeniørmessig en. Den fullstendige iOS 27-enhetskompatibilitetsanalysen redegjør for hvilke Apple Intelligence-funksjoner A17 Pro+-porten faktisk muliggjør.
Den ærlige rammen #
Apple har ingeniørkunsten. iPhone 12, en seks år gammel enhet, kan kjøre Apple Intelligence i 2026 hvis Apple velger å levere en kvantisert modell. Valget om ikke å levere det er rasjonelt fra et inntektsstandpunkt, forsvarlig fra et markedsføringsperspektiv, og uærlig fra et ingeniørmessig kommunikasjonsperspektiv. Å kalle en inntektsport en maskinvarekrav, uten å anerkjenne 1,5-bit kvantiseringsforskningen som har gjort det unødvendig, er en bevisst utelatelse.
De 250 millioner iPhone-brukerne på A16 og eldre er ikke blokkert av telefonene sine. De er blokkert av Apples P&L.
Linki źródłowe #
|- BitNet b1.58 — The Era of 1-bit LLMs (Ma et al., 2024) — Microsoft Research fundamentalt arbeid. |- Hybrid Gated Flow — Stabilizing 1.58-bit LLMs via Selective Low-Rank Correction (Feb 2026) — Identifiserer Memory Wall som den virkelige edge-AI begrensning. |- https://arxiv.org/abs/2606.04238 — Ingeniør-løsning for 2-bit nøyaktighetstap. |- Sparse-BitNet — 1.58-bit LLMs are Naturally Friendly to Semi-Structured Sparsity (Mar 2026) — Sammensatt komprimering via beskjæring. | - BitNet Distillation — Lightweight Pipeline for 1.58-bit Fine-Tuning (Oct 2025) — Produksjonsklar kvantiserings-pipeline. | - Litespark — Custom SIMD Kernels for Ternary Networks on Consumer CPUs (May 2026) — Bevis for 1,5-bit inferens på vanlige maskinvare. | - PD-Swap — 1.58-bit Transformers on Edge FPGAs (Dec 2025) — Selv billigere maskinvare kan kjøre 1,58-bit.
Czytaj również #
|- iOS 27 Compatibility: iPhone 15 Pro and the Apple Intelligence Gate — Hvilke Apple Intelligence-funksjoner trenger faktisk A17 Pro, og hvilke er kunstig begrenset. |- Apple + Anthropic Project Glasswing: Mythos Cybersecurity — Hvorfor Apple lener seg på Anthropic for AI-regnekraft som ikke er på enheten. |- Apple AI Safety as a Walled Garden — Hvordan den lukkede AI-holdningen på iPhone kartlegger til samme logikk som holder Apple Intelligence utilgjengelig for eldre enheter. |- iOS 27 Security Paradox: Agentic Malware Meets the Hardware Gate — Den agentiske malware-trusselen som gjør argumentet om on-device sandkasse mer nyansert enn “skip en kvantisert modell overalt.” |- https://arxiv.org/abs/2603.05168 — (Extra check/Link verification).