llama.cpp

mirror of https://github.com/ggerganov/llama.cpp.git synced 2025-04-20 05:26:07 +00:00

History

Johannes Gäßler e11bd856d5

CPU/CUDA: Gemma 2 FlashAttention support (#8542 )

* CPU/CUDA: Gemma 2 FlashAttention support

* apply logit_softcap to scale in kernel

* disable logit softcapping tests on Metal

* remove metal check

2024-08-24 21:34:59 +02:00

ggml-alloc.h

llama : reorganize source code + improve CMake (#8006 )

2024-06-26 18:33:02 +03:00

ggml-backend.h

CUDA: fix partial offloading for ne0 % 256 != 0 (#8572 )

2024-07-18 23:48:47 +02:00

ggml-blas.h

llama : reorganize source code + improve CMake (#8006 )

2024-06-26 18:33:02 +03:00

ggml-cann.h

[CANN] Add Ascend NPU backend (#6035 )

2024-07-17 14:23:50 +03:00

ggml-cuda.h

feat: Support Moore Threads GPU (#8383 )

2024-07-28 01:41:25 +02:00

ggml-kompute.h

llama : reorganize source code + improve CMake (#8006 )

2024-06-26 18:33:02 +03:00

ggml-metal.h

metal : add abort callback (ggml/905)

2024-08-08 13:19:30 +03:00

ggml-rpc.h

llama : reorganize source code + improve CMake (#8006 )

2024-06-26 18:33:02 +03:00

ggml-sycl.h

llama : reorganize source code + improve CMake (#8006 )

2024-06-26 18:33:02 +03:00

ggml-vulkan.h

llama : reorganize source code + improve CMake (#8006 )

2024-06-26 18:33:02 +03:00

ggml.h

CPU/CUDA: Gemma 2 FlashAttention support (#8542 )

2024-08-24 21:34:59 +02:00